Strumenti di estrazione di informazioni da dati

L'intelligenza artificiale generativa ha ampliato, ma non sostituito gli strumenti tradizionali per l'estrazione di informazioni da dati

.

Strumenti Management Strumenti e Metodologie

Dati e informazioni sono due concetti molto simili, ma, nel campo della gestione delle informazioni, hanno significati ben distinti:

  • i dati sono numeri, testi e immagini, grezzi e non elaborati che da soli non hanno un significato. Ad esempio, una serie di numeri come 10, 20, 30 sono dati. In assenza di contesto aggiuntivo (o di metadati che li completino), questi numeri di per sé non forniscono alcuna informazione utile;
  • le informazioni sono dati che sono stati elaborati o organizzati in un modo da renderli utili e significativi per specifici processi decisionali. Ad esempio, se quei numeri (10, 20, 30) rappresentano rilevazione temporali dei prezzi di mercato di una commodity, diventano informazioni utili per comprendere che quella commodity è diventata scarsa.

Se i dati sono, in un certo senso, il nuovo petrolio, senza raffinati processi di analisi e interpretazione che ne estraggono le informazioni, perdono la loro potenziale ricchezza. In questo ambito è difficile sottostimare il valore dei processi di estrazione di informazioni da dati[1].

Il ruolo dei modelli linguistici di grandi dimensioni

Negli ultimi anni, l'intelligenza artificiale ha compiuto passi notevoli, trasformandosi in uno strumento cruciale per l'analisi e l'estrazione di informazioni da volumi imponenti di dati.
Nel 2023, l'intelligenza artificiale generativa (Generative AI), tramite ChatGPT, ha segnato un'epoca, offrendo agli utenti un accesso senza precedenti a un'enorme quantità di informazioni tramite semplici interrogazioni testuali. Il suo principale punto di forza risiede nella capacità di interagire in modo intuitivo e contestualizzato, facilitando un'esperienza utente diretta e personalizzata. Tuttavia, la vastità delle aree di conoscenza potenzialmente coperte può incidere sull'accuratezza delle risposte. Per superare questo limite, si stanno sviluppando nuovi strumenti specializzati capaci di fornire dialoghi accurati e dettagliati in ambiti specifici, migliorando significativamente la pertinenza e la qualità delle informazioni erogate.
L'intelligenza artificiale generativa dimostra prestazioni eccezionali quando, come fa ChatGPT, elabora dati testuali, sfruttando la capacità dei modelli linguistici di grandi dimensioni (LLM: Large Language Models) di comprendere e generare lingua naturale in modo coerente e contestualizzato. Tuttavia, quando si tratta di estrarre informazioni da dati prevalentemente numerici o altamente tecnici, i risultati tendono a essere meno significativi.

Il ruolo di altri strumenti

Quando si tratta di dati numerici, tecniche consolidate e ben affermate, come la data visualization, la statistica e il machine learning, si rivelano strumenti molto più efficienti rispetto ai modelli generativi di grandi dimensioni.

 

Strumenti di estrazione di informazioni da dati

 

Data visualization

La data visualization è l'insieme di tecniche di visualizzazione grafica e di tabelle di dati utilizzate per rappresentare, analizzare e comunicare informazioni e dati. Questo campo, partendo dalle conoscenze dell'utente, combina elementi di design grafico, statistica e scienza dei dati per trasformare dati complessi e non strutturati in formati visivi chiari e intuitivi, consentendo agli utenti di comprendere meglio le tendenze, i pattern e le anomalie. La data visualization include una gamma di strumenti e tecniche che vanno dai grafici (come istogrammi, grafici a linee, a barre, a torta, scatter plot, ecc.) alle mappe, fino alle tabelle di dati, ciascuno con i propri casi d'uso e contesti in cui è più efficace. Le visualizzazioni grafiche sono particolarmente potenti per evidenziare relazioni tra dati e pattern dinamici; le tabelle di dati offrono, invece, dettaglio e precisione, essenziali per l'analisi approfondita.

Statistica

La statistica si occupa della raccolta, analisi, interpretazione e presentazione dei dati. Applicando metodi quantitativi rigorosi, la statistica fornisce strumenti e tecniche per comprendere e interpretare relazioni all'interno dei dati, permettendo agli utenti di testare ipotesi con precisione.
La statistica non si limita semplicemente all'estrazione di informazioni dai dati, ma inizia con la formulazione di ipotesi basate su conoscenze pregresse o teorie esistenti. I dati vengono quindi utilizzati come strumento per verificare la validità di queste ipotesi. Ad esempio, un ricercatore potrebbe ipotizzare che esista una relazione causale tra l'esercizio fisico e la salute cardiovascolare. La statistica serve a verificare se questa ipotesi, derivata dalla scienza medica, è confermata o meno dai dati e quindi può diventare una informazione affidabile, utile per prendere decisioni informate.

Machine Learning

Il machine learning è un ramo dell'intelligenza artificiale che consente di estrarre informazioni utili da grandi set di dati. Una delle potenzialità del machine learning riguarda l'identificazione di schemi complessi e non ovvi nei dati che potrebbero non essere immediatamente evidenti o rilevabili anche attraverso metodi statistici tradizionali. Questi schemi possono includere correlazioni, tendenze, cluster o anomalie che non sono facilmente discernibili a causa della grande dimensione o complessità dei dataset.
Una volta identificati, questi schemi possono essere utilizzati per fare previsioni su nuovi dati. Ad esempio, dopo essere stato addestrato su dati storici relativi al comportamento degli utenti su un sito web, un modello potrebbe prevedere quali utenti sono più propensi a effettuare un acquisto in futuro. Questa capacità di prevedere rende il machine learning estremamente utile in una varietà di campi, inclusi quelli finanziari, sanitari e di marketing.
Oltre a fare previsioni specifiche, i modelli di machine learning possono anche identificare tendenze più ampie nei dati. Ad esempio, un modello potrebbe rivelare una correlazione positiva tra acquisti di pannolini e acquisti di birra[2] in un supermercato, suggerendo una relazione che potrebbe non risultare altrimenti evidente.

Conclusioni

Con l'avvento dell'intelligenza artificiale generativa basata sui Large Language Models, la cassetta di strumenti per l'estrazione di informazioni da dati si è significativamente arricchita, introducendo capacità avanzate di analisi e interpretazione del linguaggio naturale. Questa innovazione, tuttavia, non rende obsoleti i metodi tradizionali come la data visualization e la statistica, né minimizza l'importanza del machine learning, che restano strumenti fondamentali nell'analisi dei dati. Mentre i Large Language Models offrono straordinarie competenze nel trattamento del testo, il machine learning fornisce un ampio spettro di applicazioni, dalla classificazione alla predizione, essenziali per decifrare complessi pattern nei dati. Entrambi questi nuovi strumenti si affiancano ai metodi tradizionali, che continuano a essere preziosi per la loro capacità di illustrare visivamente i dati e condurre analisi quantitative rigorose. In particolare, il machine learning si rivela cruciale quando si tratta di identificare tendenze non evidenti, prevedere eventi futuri e ottimizzare processi basandosi su vasti set di dati, dove la potenza computazionale e l'approccio algoritmico possono offrire vantaggi distintivi. In questo ecosistema tecnologico, metodi tradizionali, machine learning e intelligenza artificiale generativa coesistono come strumenti complementari, ciascuno con il suo ruolo specifico a seconda del contesto e degli obiettivi di analisi, garantendo un approccio all'estrazione di informazioni che è al contempo robusto e versatile.


[1] Può essere utile segnalare che con "processo di estrazione di informazioni da dati" si intende un ambito di attività più ampio rispetto al processo di "Information Extraction" (IE). Questo ultimo è un campo di ricerca dell'intelligenza artificiale e dell'elaborazione del linguaggio naturale che si occupa dell'estrazione automatica di informazioni strutturate e rilevanti da testi non strutturati. L'obiettivo è di identificare e classificare automaticamente specifiche informazioni in testi scritti, come nomi di persone, organizzazioni, località, date, relazioni tra entità, ecc., e di organizzare queste informazioni in un formato facilmente accessibile e gestibile, come database o fogli di calcolo.
[2] La storia che collega l'acquisto di pannolini e birra è un aneddoto piuttosto famoso nel campo del data mining e della business intelligence. L'aneddoto sostiene che, attraverso l'analisi delle transazioni dei clienti, un supermercato abbia scoperto una correlazione tra l'acquisto di pannolini e quello di birra. Questa storia è spesso utilizzata come esempio semplificato per illustrare il concetto di associazione in data mining che potrebbe sembrare non intuitiva ma è rilevata dall'analisi dei dati, fornendo all'analista un insight inaspettato.