Il data mining, spesso definito come l'estrazione complessa di informazioni implicite, precedentemente sconosciute e potenzialmente utili dai dati, rappresenta una disciplina fondamentale nell'era digitale. Si tratta dell'esplorazione e dell'analisi, per mezzo di sistemi automatici e semi-automatici, di grandi quantità di dati al fine di scoprire pattern significativi. Sebbene fortemente interrelati, il termine "big data" si distingue formalmente dal data mining, indicando il processo computazionale di scoperta di pattern in grandi dataset utilizzando metodi di machine learning, intelligenza artificiale, statistica e basi di dati. A parte la fase di analisi vera e propria, il data mining copre aspetti di gestione del dato, pre-processing, modellazione, identificazione di metriche di interesse e visualizzazione.

Le aziende, attraverso software dedicati al data mining, possono scandagliare i dati grezzi raccolti per estrarre informazioni preziose per il proprio business. Queste includono lo sviluppo di strategie di marketing più efficaci, una comprensione più profonda dei propri clienti, l'aumento delle vendite e la riduzione dei costi.
Perché è Necessario il Data Mining?
I motivi che rendono indispensabile l'utilizzo di sistemi di data mining sono molteplici. Innanzitutto, la quantità di dati memorizzata su supporti informatici è in continuo aumento: pagine web, sistemi di e-commerce, dati relativi ad acquisti e scontrini fiscali, transazioni bancarie relative a carte di credito. In secondo luogo, l'hardware diventa sempre più potente e meno costoso, rendendo accessibili analisi prima impensabili. Dal lato delle aziende, la pressione competitiva è in continua crescita e la risorsa "informazione" è un bene prezioso per superare la concorrenza.
Anche nel campo scientifico, i dati prodotti e memorizzati crescono a grande velocità (GB/ora) e provengono da fonti disparate come sensori posti su satelliti, telescopi, microarray che generano espressioni genetiche, e simulazioni scientifiche che producono terabyte di dati. Le tecniche tradizionali risultano inapplicabili a queste masse di dati grezzi; il data mining, invece, può aiutare gli scienziati a classificare e segmentare i dati e a formulare ipotesi. Altri motivi per cui si rende necessario l'utilizzo del data mining sono che molte delle informazioni presenti nei dati non sono direttamente evidenti; le analisi guidate dagli uomini possono richiedere settimane per scoprire informazioni utili e una larga parte dei dati non è di fatto mai analizzata.
Cos'è il Data Mining?
Cos'è un Pattern e i Vari Tipi
Un pattern è una rappresentazione sintetica e ricca di semantica di un insieme di dati. Esprime in genere un modello ricorrente nei dati, ma può esprimere anche un modello eccezionale. Un pattern deve possedere determinate caratteristiche:
- Validità sui dati: Deve essere presente con un certo grado di confidenza.
- Comprensibilità: Deve essere interpretabile dal punto di vista sintattico e semantico dall'utente.
- Novità e Utilità: Deve essere precedentemente sconosciuto e potenzialmente utile, affinché l'utente possa intraprendere azioni di conseguenza.
Esistono diverse tipologie di pattern:
- Regole associative: Consentono di determinare le regole di implicazione logica presenti nel database, individuando gruppi di affinità tra oggetti.
- Classificatori: Derivano un modello per la classificazione di dati secondo un insieme di classi assegnate a priori.
- Alberi decisionali: Sono particolari classificatori che permettono di identificare, in ordine di importanza, le cause che portano al verificarsi di un evento.
- Clustering: Raggruppa gli elementi di un insieme, a seconda delle loro caratteristiche, in classi non assegnate a priori.
- Serie temporali: Permettono l'individuazione di pattern ricorrenti o atipici in sequenze di dati complesse.
Esempi e Tecniche di Data Mining
Il data mining trae ispirazione da aree quali il machine learning, l'intelligenza artificiale, il pattern recognition, la statistica e le basi di dati. Nasce per sostituire le tecniche di analisi tradizionali, spesso inadeguate a causa dell'enorme quantità, dell'elevata dimensionalità, dell'eterogeneità e della complessità dei dati.
Esempi pratici di data mining includono la ricerca dei cognomi più comuni in certe regioni o il raggruppamento dei documenti restituiti da un motore di ricerca in base a informazioni di contesto (ad esempio, "foresta pluviale amazzonica"). È importante sottolineare cosa non è data mining: cercare un numero nell'elenco telefonico o interrogare un motore di ricerca per trovare informazioni specifiche non costituiscono data mining nel senso proprio del termine, poiché mancano l'elemento di scoperta di pattern nascosti e l'analisi su larga scala.
Le attività tipiche del data mining si dividono in due categorie:
- Sistemi di predizione: Utilizzano alcune variabili per predire il valore incognito o futuro di altre variabili.
- Sistemi di descrizione: Trovano pattern interpretabili dall'uomo che descrivono i dati.
Le attività di data mining includono:
- Classificazione (predittiva)
- Clustering (descrittiva)
- Ricerca di regole associative (descrittiva)
- Ricerca di pattern sequenziali (descrittiva)
- Regressione (predittiva)
- Individuazione di deviazioni (predittiva)
1. Classificazione Predittiva
Definizione: Data una collezione di record (training set), ogni record è composto da un insieme di attributi di cui uno esprime la classe di appartenenza. L'obiettivo è trovare un modello per l'attributo di classe che esprima il suo valore in funzione degli altri attributi. L'obiettivo finale è assegnare record non noti a una classe nel modo più accurato possibile, utilizzando un test set per determinare l'accuratezza del modello. Normalmente, il dataset fornito è suddiviso in training set (per costruire il modello) e test set (per validarlo).
Primo Esempio di Applicazione: Direct Marketing
- Obiettivo: Ridurre il costo della pubblicità via posta definendo l'insieme dei clienti che, con maggiore probabilità, acquisteranno un nuovo prodotto di telefonia.
- Approccio: Utilizzare i dati raccolti per il lancio di prodotti simili, conoscendo quali clienti hanno deciso di comprare e quali no. Questa informazione (compra, non compra) rappresenta l'attributo di classificazione. Raccogliere tutte le informazioni possibili legate ai singoli compratori (demografiche, stile di vita, precedenti rapporti con l'azienda, attività lavorativa, reddito, sesso, età, ecc.) come attributi di input per addestrare un modello di classificazione.
Secondo Esempio di Applicazione: Individuazione di Frodi
- Obiettivo: Predire l'utilizzo fraudolento delle carte di credito.
- Approccio: Utilizzare le precedenti transazioni e le informazioni sui loro possessori come attributi (quando compra l'utente, cosa compra, paga con ritardo, ecc.). Etichettare le precedenti transazioni come fraudolente o lecite. Questa informazione rappresenta l'attributo di classificazione. Costruire un modello per le due classi di transazioni e utilizzarlo per individuare comportamenti fraudolenti nelle prossime transazioni relative a una specifica carta di credito.
2. Clustering
Definizione: Dato un insieme di punti, ognuno caratterizzato da un insieme di attributi, e avendo a disposizione una misura di similarità tra i punti, trovare i sottoinsiemi di punti tali che quelli appartenenti a un sottoinsieme siano più simili tra loro rispetto a quelli appartenenti ad altri cluster.
Misure di Similarità: La distanza euclidea è applicabile se gli attributi dei punti assumono valori continui. Sono possibili molte altre misure che dipendono dal problema in esame.
Esempio di Applicazione: Segmentazione del Mercato
- Obiettivo: Suddividere i clienti in sottoinsiemi distinti da utilizzare come target di specifiche attività di marketing.
- Approccio: Raccogliere informazioni sui clienti legate allo stile di vita e alla collocazione geografica. Trovare cluster di clienti simili e misurare la qualità dei cluster verificando se il pattern di acquisto dei clienti appartenenti allo stesso cluster è più simile di quello di clienti appartenenti a cluster differenti.

3. Regole Associative
Definizione: Dato un insieme di record, ognuno composto da più elementi appartenenti a una collezione data, produrre regole di dipendenza che predicono l'occorrenza di uno degli elementi in presenza di occorrenze degli altri.
Esempio di Applicazione: Disposizione della Merce
- Obiettivo: Identificare i prodotti comprati assieme da un numero sufficientemente elevato di clienti.
- Approccio: Utilizzare i dati provenienti dagli scontrini fiscali per individuare le dipendenze tra i prodotti. Una classica regola associativa è: se un cliente compra pannolini e latte, allora molto probabilmente comprerà birra. Di conseguenza, lo scaffale delle birre verrà posizionato vicino a quello dei pannolini per bambini. Questo esempio, spesso citato, illustra come l'analisi dei dati possa portare a decisioni strategiche apparentemente controintuitive ma efficaci.
4. Regressione
Definizione: Predire il valore di una variabile a valori continui sulla base di valori di altre variabili, assumendo un modello di dipendenza lineare o non lineare. Questo è un problema ampiamente studiato in statistica e nell'ambito delle reti neurali.
Esempi di Applicazione:
- Predire il fatturato di vendita di un nuovo prodotto sulla base degli investimenti in pubblicità.
- Predire la velocità del vento in funzione della temperatura, umidità e pressione atmosferica.
- Previsione dell'andamento del mercato azionario.
Data Mining per Negozi Online: Ottimizzare l'E-Commerce a Basso Costo
Se si desidera iniziare a trovare informazioni utili per il proprio e-commerce attraverso il data mining, è fondamentale sapere come farlo in modo efficiente. Il metodo più semplice per iniziare è esaminare i dati passo dopo passo. È utile osservare anche le fasce orarie: a che ora si vendono quali prodotti? La stessa ricerca può essere fatta non solo con i prodotti, ma anche con le pagine web: quali pagine del sito sono le più popolari e quando? Confrontare questi dati con le vendite effettive può fornire insight preziosi.
Esistono anche strumenti automatici per il data mining. Non importa quanto traffico si abbia, se le pagine dei prodotti non sono ottimizzate. Alcuni tra gli strumenti per il data mining più usati sono RapidMiner e Orange. La risposta a domande specifiche su come ottimizzare il proprio e-commerce dipenderà molto dalle informazioni trovate. Un aspetto importante è la promozione. I risultati del data mining sono spesso imprevedibili e possono essere difficili da interpretare. Inoltre, anche se si trova una somiglianza nei dati, ciò non significa necessariamente che ci sia una correlazione causale.

Un esempio noto, sebbene forse romanzato, riguarda la catena di supermercati britannica Tesco. Dopo aver individuato uno schema, i supermercati hanno ridisposto i prodotti, mettendo le birre vicine ai pannolini. Il motivo a posteriori, una volta notata la relazione, diventa lampante pensando ai giovani papà. Questo tipo di correlazione, sebbene non dimostri una causa diretta, può guidare strategie di marketing efficaci.
Sapevate che le recensioni dei clienti hanno un'influenza sulla SEO e possono aiutarti a migliorare il tuo posizionamento sulla SERP (Search Engine Results Page)? Il data mining può fornire informazioni inaspettate e sorprendenti che sicuramente daranno un vantaggio al tuo e-commerce. Se fatto correttamente, il data mining può davvero aiutarti a valutare le informazioni in modo mirato e a ottimizzare il servizio e le conversioni.
Il Ruolo del Machine Learning nel Data Mining
Il ruolo del machine learning in un progetto reale di data mining è cruciale, poiché molte delle attività di scoperta di pattern si basano su algoritmi di apprendimento automatico. L'identificazione di pattern può essere paragonata all'apprendimento da parte del sistema di data mining di una relazione causale precedentemente ignota, cosa che trova applicazione in ambiti come quello degli algoritmi euristici e dell'intelligenza artificiale.
Un'altra tecnica molto diffusa per il data mining è l'apprendimento mediante classificazione. Questo schema di apprendimento parte da un insieme ben definito di esempi di classificazione per casi noti, dai quali ci si aspetta di dedurre un modo per classificare esempi non noti. Tale approccio viene anche detto "con supervisione" (supervised), nel senso che lo schema di apprendimento opera sotto la supervisione fornita implicitamente dagli esempi di classificazione per i casi noti; tali esempi, per questo motivo, vengono anche detti "training examples", ovvero "esempi per l'addestramento".
Differenze tra Data Mining e Machine Learning
Molte persone confondono il data mining con il machine learning. Sebbene vi siano somiglianze, i due concetti differiscono:
- Intervento Umano: Il data mining è un processo manuale che richiede l'intervento dell'uomo. Il processo del machine learning, una volta stabilite le regole, è automatico e senza intervento umano.
- Regole: Nel data mining le regole sono sconosciute all'inizio del processo, mentre nel machine learning vengono fornite per comprendere i dati e apprendere.
- Applicazione: Il data mining viene usato su una banca dati esistente per trovare modelli. Il machine learning viene utilizzato su una banca dati in formazione che addestra il computer a leggere i dati e fare previsioni.
Nonostante le nette differenze, poiché le aziende diventano sempre più orientate alla predizione, potremo assistere in futuro a una sovrapposizione tra machine learning e data mining.
L'Approccio Metodologico CRISP-DM
Un progetto di data mining richiede un approccio strutturato, in cui la scelta del miglior algoritmo è solo uno dei fattori di successo. La metodologia CRISP-DM (Cross-Industry Standard Process for Data Mining) è una delle proposte più strutturate per definire i passi fondamentali di un progetto di data mining. Le sei fasi del ciclo di vita non sono strettamente sequenziali; è spesso necessario tornare su attività già svolte.
- Comprensione del Dominio Applicativo: Capire gli obiettivi del business dal punto di vista dell'utente, tradurre il problema dell'utente in un problema di data mining e definire un primo piano di progetto.
- Comprensione dei Dati: Raccolta preliminare dei dati finalizzata a identificare problemi di qualità e a svolgere analisi preliminari che permettano di identificare le caratteristiche salienti.
- Preparazione dei Dati: Comprende tutte le attività necessarie a creare il data set finale: selezione di attributi e record, trasformazione e pulizia dei dati.
- Creazione del Modello: Diverse tecniche di data mining sono applicate al data set, anche con parametri diversi, al fine di individuare quella che permette di costruire il modello più accurato.
- Valutazione del Modello e dei Risultati: Il modello o i modelli ottenuti dalla fase precedente sono analizzati al fine di verificare che siano sufficientemente precisi e robusti da rispondere adeguatamente agli obiettivi dell'utente.
- Deployment: Il modello costruito e la conoscenza acquisita devono essere messi a disposizione degli utenti.
Il Valore dei Dati: Oltre il Petrolio
L'affermazione "i dati sono il nuovo petrolio" è ormai di uso comune. Tuttavia, è più accurato dire che i dati valgono, in molti casi, molto più del petrolio. L'esempio dei pannolini e della birra, sebbene a volte ammantato di leggenda, illustra perfettamente l'importanza del dato. Analizzando le informazioni sugli acquisti dei propri clienti, un grande supermercato scoprì che uomini che compravano pannolini erano anche propensi a comprare birra. Il dato non ci dice il perché, ma una volta notata la relazione, la spiegazione diventa lampante pensando ai giovani papà.
Un caso più concreto, avvenuto nel 2012 a Target, colosso americano della grande distribuzione, dimostra ulteriormente questo concetto. Analizzando i dati degli acquisti di una cliente, Target predisse che era incinta e anche di quanti mesi. Come strategia di sfruttamento economico, Target iniziò a spedire via posta dei coupon relativi alla maternità in arrivo. La cliente però era una teenager, e suo padre - ignaro di tutto - ricevendo questo tipo di posta a casa si lamentò con Target per la pubblicità inappropriata, salvo poi scusarsi una volta scoperta la verità dalla figlia.
Questo stesso concetto, portato in una sfera più ampia, quella del mondo totalmente digitale, apre scenari di potere e responsabilità enormi. Ogni novità tecnologica non è buona o cattiva in sé: dipende dall'uso che se ne fa. Il nucleare può fornire energia, ma purtroppo essere adoperato per scopi bellici. "Da un grande potere derivano grandi responsabilità", ammoniva Ben Parker. Per i dati, questa riflessione è più vera che mai: chi li controlla ha un potere che può e deve essere usato al fine di potenziare le nostre vite.
Nel settore della Pubblica Amministrazione, la migliore conoscenza del cittadino attraverso i dati permette di accrescere la qualità dei servizi offerti. Ad esempio, non appena è a conoscenza del fatto che è nato un bambino, la Pubblica Amministrazione può proattivamente far presente ai genitori la possibilità di benefici fiscali. Nel settore privato, fin quando si tratta di pubblicità, una profilazione (in forma rigorosamente anonima) è accettabile e spesso anche ben voluta. È nell'interesse di queste compagnie tenere l'utente incollato allo schermo il più possibile, e il modo migliore per farlo è sfruttare la conoscenza che hanno tramite i dati per fornire di continuo immagini o video che sanno essere interessanti per quella persona.
Aspetti Legali e Etici del Data Mining
Il data mining solleva anche importanti questioni legali ed etiche, specialmente per quanto riguarda la proprietà intellettuale e la privacy. In base alle leggi europee sul copyright e sui database, l'estrazione di opere protette da copyright (ad esempio tramite il web mining) senza l'autorizzazione del titolare del copyright non è legale. Laddove un database è costituito da dati puri in Europa, può darsi che non vi sia alcun diritto d'autore, ma possono esistere diritti di database, rendendo il data mining soggetto ai diritti dei proprietari di proprietà intellettuale protetti dalla Direttiva sui database.
Su raccomandazione della revisione di Hargreaves, il governo del Regno Unito ha modificato la sua legge sul copyright nel 2014 per consentire l'estrazione di contenuti come limitazione ed eccezione. Il Regno Unito è stato il secondo paese al mondo a farlo dopo il Giappone. Tuttavia, a causa della restrizione della direttiva sulla società dell'informazione (2001), l'eccezione del Regno Unito consente l'estrazione di contenuti solo per scopi non commerciali. La Commissione europea ha facilitato la discussione delle parti interessate sull'estrazione di testo e dati nel 2013.
La questione della privacy è altrettanto cruciale. Le aziende devono garantire che i dati vengano trattati in modo anonimo e sicuro, rispettando le normative vigenti come il GDPR. La trasparenza sull'uso dei dati e il consenso informato sono pilastri fondamentali per costruire e mantenere la fiducia dei clienti.

In conclusione, il data mining è uno strumento potente che, se utilizzato in modo etico e responsabile, può portare a scoperte significative e a un vantaggio competitivo inestimabile. Dalla disposizione strategica dei prodotti nei supermercati alla personalizzazione dell'esperienza utente online, passando per la prevenzione delle frodi e l'ottimizzazione dei servizi pubblici, il suo impatto è pervasivo e in continua espansione.