03/02/2015 di Redazione

Doccia fredda per le analisi Big Data: algoritmi non affidabili?

Secondo test sponsorizzati dalla American Physical Society, uno fra i più diffusi metodi di modellazione per Big Data non strutturati produce analisi inattendibili e poco significative. Il Latent Dirichlet Allocation, questo il nome, non aiuta a trovare l

immagine.jpg

La Business Intelligence derivata dall’analisi dei Big Data potrebbe non essere così intelligente. Sotto accusa c’è la tecnica di modellazione chiamata Latent Dirichlet Allocation, o Lda, utilizzata per catalogare i dati non strutturati (come le conversazioni social e i testi in linguaggio naturale) per renderli analizzabile: da un esperimento realizzato dalla rivista scientifica Physical Review X, espressione della American Physical Society, è emersa l’inattendibilità di questo metodo.

Un team capeggiato dal fisico Luis Amaral, specializzato in analisi matematiche di sistemi complessi, ha eseguito ripetute prove di analytics con il metodo Lda su 23mila pubblicazioni scientifiche e su 1,2 milioni di pagine di Wikipedia scritte in diversi linguaggi. E l’esito è stato deludente: anche processando la medesima porzione di testo e le medesime impostazioni di analisi, fra i risultati dei diversi test si è rilevata una corrispondenza dell’80%. Percentuale che in assoluto non va considerata scarsa, ma che lo è se le diverse analisi vengono eseguite sullo stesso materiale di partenza.

“Le nostre analisi sistematiche dimostrano chiaramente che le attuali implementazioni della Lda hanno scarsa validità”, si legge nel report. A detta della American Physical Society, la Latent Dirichlet Allocation è non solo inaccurata ma anche non significativa, e dunque incapace di produrre insight realmente utili. Le soglie attendibilità che garantisce (90% di accuratezza e 80% di coerenza) andrebbero bene se applicate a materiali ampi ed eterogenei, ma non – come nei test eseguiti – in caso di analisi circoscritte.

 

 

Questo metodo è oggi fra i più diffusi per eseguire analisi di dati non strutturati. La Lda permette, o meglio promette, di mettere ordine all’interno di masse di documenti testuali individuando dei temi ricorrenti, le fonti, i formati delle informazioni e altri criteri di classificazione. Se questa tecnica è inattendibile, qual è l’alternativa?

Il gruppo guidato da Luis Amaral ha completato l’indagine eseguendo gli stessi test con un altro metodo, chiamato TopicMapping. Quest’ultimo, rispetto all’Lda, esegue sui dati anche un lavoro preliminare distinguendo fra plurali e singolari, eliminando le congiunzioni e i pronomi ed effettuando altre operazioni di “pulitura” dei testi. I risultati ottenuti sono stati migliori: 92% di accuratezza e 98% di coerenza fra le diverse prove.

La sostanza però non cambia di molto, perché l’indagine ha comunque dimostrato empiricamente come i metodi di analisi Big Data attualmente sfruttati siano meno attendibili del previsto. La “ricerca dell’ago nel pagliaio”, cioè dell’informazione di valore, per le aziende alle prese con grandi masse di dati non strutturati appare ancora vaga e complessa. “Le aziende che creano dei prodotti devono sapere dimostrare che questi prodotti funzionano”, ha scritto Amaral. “Devono essere certificati. E per gli algoritmi non esiste niente di tutto ciò. Molti utenti inconsapevolmente sfruttano algoritmi Big Data basati su strumenti la cui attendibilità e coerenza non è stata testata”.

 

ARTICOLI CORRELATI