La battaglia di Facebook contro l’hate speech, i discorsi che incitano all’odio, prosegue a colpi di intelligenza artificiale. E i progressi si vedono: a fine 2017 gli strumenti di rilevamento automatico erano in grado di identificare meno del 24% dei contenuti di odio e da allora la percentuale è cresciuta costantemente fino al 94,8% del terzo trimestre di quest’anno. Il numero è stato svelato da Mike Schroepfer, chief technology officer dell’azienda, in un blog post. Ovviamente sappiamo che l’intelligenza artificiale non sostituisce le persone nell’opera di fact-checking, ma le affianca con un indispensabile lavoro complementare. I software di analisi permettono di “bonificare” la piattaforma dai contenuti nocivi ancor prima che un utente faccia una segnalazione e naturalmente possono processare enormi volumi di dati, non gestibili da un team di persone, per quanto esteso. E quello di Facebook sicuramente lo è: attualmente si contano circa 35mila collaboratori impegnati nella revisione dei contenuti.

Ma quanto è diffuso l’hate speech su Facebook? Tra giugno e settembre di quest’anno l’azienda stima un’incidenza di circa lo 0,1% (fra 0,10% e 0,11%) sul totale dei contenuti pubblicati. Sembrano percentuali irrisorie, ma non lo sono su una piattaforma che conta oltre 2,7 miliardi di utenti attivi. Nel valutare il “peso” dei contenuti d’odio va comunque considerata anche la visibilità che questi post ottengono, dato che alcuni diventano virali e ottengono molte visualizzazioni in poco tempo, altri circolano per lo più all’interno di “social bubble” di persone accomunate dai medesimi interessi e punti di vista.

Identificare l’hate speech: un lavoro difficile
In quattro anni, ha spiegato Arcadiy Kantor, product manager, Integrity di Facebook, l’azienda ha investito miliardi di dollari nel rafforzamento delle tecnologie e della squadra di collaboratori. L’opera di identificazione dell’hate speech è particolarmente complessa perché non si tratta di matematica bensì di linguaggio naturale: il senso di un discorso dipende dal contesto e dalla connotazione delle parole, non soltanto dal significato denotativo. Nella definizione delle regole sull’hate speech le sfumature di significato, la storia, la lingua, la religione e le cultura sono fattori da ponderare.  

Tecnicamente, viene considerato come “discorso d’odio” tutto ciò che rappresenta un attacco verso il prossimo sulla base di caratteristiche come la razza, l’etnia, la nazionaltà, la religione, il genere, l’orientamento e l’identità sessuale, la disabilità e la malattia. Negli ultimi anni tali policy sono state ampliate per potenziare la difesa dagli abusi per diverse categorie di persone: “Abbiamo fatto dei passi per combattere il nazionalismo bianco e il separatismo bianco”, sottolinea Kantor, “abbiamo introdotto nuove regole sui contenuti che fomentano la violenza contro i migranti, abbiamo proibito il negazionismo sull’olocausto e aggiornato le nostre regole per tener presente alcuni tipi di discorso d’odio implicito, come i contenuti che rappresentano persone di colore o stereotipi sugli ebrei”.

Due immagini riferite alla stessa notizia falsa: il sistema di AI ha scovato quella a destra per somiglianza, dopo aver identificato quella a sinistra (Fonte: Facebook)

Battaglia ai meme bugiardi
Sebbene gli algoritmi di Facebook abbiano raggiunto un elevato grado di efficacia e accuratezza, sbagliare è ancora molto facile. Là dove il linguaggio è particolarmente colorito o metaforico, come nei contenuti pubblicitari, i falsi positivi abbondano e non è raro che un post venga rimosso anche se del tutto legittimo. Dunque la società di Menlo Park è costantemente al lavoro per migliorare i propri sistemi di analisi del linguaggio: una recente conquista è uno strumento chiamato  Linformer (un gioco di parole che si potrebbe tradurre come “trasformatore lineare”) che permette di sfruttare modelli di comprensione del linguaggio fino a ieri troppo estesi e “pesanti” per operare su larga scala.

Un altro fronte su cui si lavora è l’analisi delle interazioni fra testo, immagini classiche e  immagini contenenti testo al loro interno, come i meme e le schermate contraffatte, che fingono di riferirsi a siti Web o video o programmi televisivi. Qui l’opera di identificazione dell’hate speech (così come delle fake news) è particolarmente complessa perché una singola parola può cambiare o anche rovesciare completamente il senso di un’immagine. Due contenuti possono assomigliarsi molto dal punto di vista visivo e differire nel senso, o viceversa.  In ogni caso l’intelligenza artificiale di Facebook sta diventando sempre più abile nello scovare le diverse varianti di uno stesso contenuto di disinformazione: per esempio, le finte notizie sulle mascherine chirurgiche che anziché proteggere dal covid-19 causerebbero il cancro. Sperare in un mondo in cui le persone smettano di confezionare (pericolose) sciocchezze è forse utopico: dovremo forse accontentarci di un’intelligenza artificiale che le metta a tacere.