03/02/2015 di Redazione

Doccia fredda per le analisi Big Data: algoritmi non affidabili?

Secondo test sponsorizzati dalla American Physical Society, uno fra i più diffusi metodi di modellazione per Big Data non strutturati produce analisi inattendibili e poco significative. Il Latent Dirichlet Allocation, questo il nome, non aiuta a trovare l

La Business Intelligence derivata dall’analisi dei Big Data potrebbe non essere così intelligente. Sotto accusa c’è la tecnica di modellazione chiamata Latent Dirichlet Allocation, o Lda, utilizzata per catalogare i dati non strutturati (come le conversazioni social e i testi in linguaggio naturale) per renderli analizzabile: da un esperimento realizzato dalla rivista scientifica Physical Review X, espressione della American Physical Society, è emersa l’inattendibilità di questo metodo.

Un team capeggiato dal fisico Luis Amaral, specializzato in analisi matematiche di sistemi complessi, ha eseguito ripetute prove di analytics con il metodo Lda su 23mila pubblicazioni scientifiche e su 1,2 milioni di pagine di Wikipedia scritte in diversi linguaggi. E l’esito è stato deludente: anche processando la medesima porzione di testo e le medesime impostazioni di analisi, fra i risultati dei diversi test si è rilevata una corrispondenza dell’80%. Percentuale che in assoluto non va considerata scarsa, ma che lo è se le diverse analisi vengono eseguite sullo stesso materiale di partenza.

“Le nostre analisi sistematiche dimostrano chiaramente che le attuali implementazioni della Lda hanno scarsa validità”, si legge nel report. A detta della American Physical Society, la Latent Dirichlet Allocation è non solo inaccurata ma anche non significativa, e dunque incapace di produrre insight realmente utili. Le soglie attendibilità che garantisce (90% di accuratezza e 80% di coerenza) andrebbero bene se applicate a materiali ampi ed eterogenei, ma non – come nei test eseguiti – in caso di analisi circoscritte.

Questo metodo è oggi fra i più diffusi per eseguire analisi di dati non strutturati. La Lda permette, o meglio promette, di mettere ordine all’interno di masse di documenti testuali individuando dei temi ricorrenti, le fonti, i formati delle informazioni e altri criteri di classificazione. Se questa tecnica è inattendibile, qual è l’alternativa?

Il gruppo guidato da Luis Amaral ha completato l’indagine eseguendo gli stessi test con un altro metodo, chiamato TopicMapping. Quest’ultimo, rispetto all’Lda, esegue sui dati anche un lavoro preliminare distinguendo fra plurali e singolari, eliminando le congiunzioni e i pronomi ed effettuando altre operazioni di “pulitura” dei testi. I risultati ottenuti sono stati migliori: 92% di accuratezza e 98% di coerenza fra le diverse prove.

La sostanza però non cambia di molto, perché l’indagine ha comunque dimostrato empiricamente come i metodi di analisi Big Data attualmente sfruttati siano meno attendibili del previsto. La “ricerca dell’ago nel pagliaio”, cioè dell’informazione di valore, per le aziende alle prese con grandi masse di dati non strutturati appare ancora vaga e complessa. “Le aziende che creano dei prodotti devono sapere dimostrare che questi prodotti funzionano”, ha scritto Amaral. “Devono essere certificati. E per gli algoritmi non esiste niente di tutto ciò. Molti utenti inconsapevolmente sfruttano algoritmi Big Data basati su strumenti la cui attendibilità e coerenza non è stata testata”.

Doccia fredda per le analisi Big Data: algoritmi non affidabili?

ARTICOLI CORRELATI

Vectra AI e Crowdstrike uniscono le forze per aiutare i Soc
17/05/2024 di redazione

AI in Italia, c’è un gap da colmare su competenze e infrastrutture
17/05/2024 di redazione

DataCore porta lo storage software-defined dove c’è poco spazio
17/05/2024 di

Servizi finanziari e analytics: è boom di dati non strutturati
17/05/2024 di redazione

Vectra AI e Crowdstrike uniscono le forze per aiutare i Soc
17/05/2024 di redazione

AI in Italia, c’è un gap da colmare su competenze e infrastrutture
17/05/2024 di redazione

DataCore porta lo storage software-defined dove c’è poco spazio
17/05/2024 di

Servizi finanziari e analytics: è boom di dati non strutturati
17/05/2024 di redazione

Colpo di scena sulla Apple Car: forse non la vedremo mai
28/02/2024 di Valentina Bernocco

Italia sotto attacco cyber: episodi “gravi” in crescita nel 2023
08/03/2024 di Elena Vaciago

Il cloud distribuito di Oracle fa proseliti in Italia
27/03/2024 di Roberto Bonino

Gestione e risoluzione dei rischi cyber: Armis compra Silk Security
17/04/2024 di redazione

Doccia fredda per le analisi Big Data: algoritmi non affidabili?

ARTICOLI CORRELATI

Vectra AI e Crowdstrike uniscono le forze per aiutare i Soc 17/05/2024 di redazione

AI in Italia, c’è un gap da colmare su competenze e infrastrutture 17/05/2024 di redazione

DataCore porta lo storage software-defined dove c’è poco spazio 17/05/2024 di

Servizi finanziari e analytics: è boom di dati non strutturati 17/05/2024 di redazione

Vectra AI e Crowdstrike uniscono le forze per aiutare i Soc 17/05/2024 di redazione

AI in Italia, c’è un gap da colmare su competenze e infrastrutture 17/05/2024 di redazione

DataCore porta lo storage software-defined dove c’è poco spazio 17/05/2024 di

Servizi finanziari e analytics: è boom di dati non strutturati 17/05/2024 di redazione

Colpo di scena sulla Apple Car: forse non la vedremo mai 28/02/2024 di Valentina Bernocco

Italia sotto attacco cyber: episodi “gravi” in crescita nel 2023 08/03/2024 di Elena Vaciago

Il cloud distribuito di Oracle fa proseliti in Italia 27/03/2024 di Roberto Bonino

Gestione e risoluzione dei rischi cyber: Armis compra Silk Security 17/04/2024 di redazione

Iscriviti alla newsletter di ictBusiness.it

Vectra AI e Crowdstrike uniscono le forze per aiutare i Soc
17/05/2024 di redazione

AI in Italia, c’è un gap da colmare su competenze e infrastrutture
17/05/2024 di redazione

DataCore porta lo storage software-defined dove c’è poco spazio
17/05/2024 di

Servizi finanziari e analytics: è boom di dati non strutturati
17/05/2024 di redazione

Vectra AI e Crowdstrike uniscono le forze per aiutare i Soc
17/05/2024 di redazione

AI in Italia, c’è un gap da colmare su competenze e infrastrutture
17/05/2024 di redazione

DataCore porta lo storage software-defined dove c’è poco spazio
17/05/2024 di

Servizi finanziari e analytics: è boom di dati non strutturati
17/05/2024 di redazione

Colpo di scena sulla Apple Car: forse non la vedremo mai
28/02/2024 di Valentina Bernocco

Italia sotto attacco cyber: episodi “gravi” in crescita nel 2023
08/03/2024 di Elena Vaciago

Il cloud distribuito di Oracle fa proseliti in Italia
27/03/2024 di Roberto Bonino

Gestione e risoluzione dei rischi cyber: Armis compra Silk Security
17/04/2024 di redazione