20/01/2021 di Redazione

Le foto di Facebook e Instragram “parlano” meglio ai non vedenti

Le due piattaforme stanno potenziando le tecnologie di intelligenza artificiale per il riconoscimento delle immagini: potranno aiutare chi ha problemi di vista e, in generale, migliorare le funzioni di ricerca.

Su Instagram e Faacebook, l’intelligenza artificiale applicata al riconoscimento delle immagini fa un passo avanti. Le tecnologie di AI visuale non sono una novità, ma questo campo è in continua evoluzione e le piattaforme Web (Google e Facebook in testa) fanno a gara per rendere sempre più potenti ed efficaci le proprie armi. Già da un paio di anni su Facebook e Instagram gli algoritmi di riconoscimento delle immagini permettono di generare in automatico le meta descrizioni (quelle dell’attributo ALT, il testo alternativo associato a un’immagine), altrimenti compito manuale degli utenti. 

Grazie alle meta descrizioni, i programmi screen reader destinati agli utenti non vedenti e ipovedenti possono comunicare a voce il contenuto di un’immagine, rendendo per loro fruibile quel contenuto. Molte delle fotografie caricate sui social network, però, non contengono gli attributi ALT ed è per questo che nel 2016 la società di Menlo Park ha introdotto una tecnologia di intelligenza artificiale che impiega il riconoscimento degli oggetti per generare una meta descrizione delle fotografie. Automatic alternative text, questo il nome della tecnologia, è stata poi premiata due anni dopo dalla American Foundation for the Blind per la sua utilità.

Ora il sistema è stato migliorato: può generare descrizioni più dettagliate e più precise, identificando un maggior numero di attività, scenari, tipi di animale, esseri umani, oggetti di ogni genere, personaggi pubblici. L’esempio fatto da Facebook è quello di un’immagine corredata dalla descrizione: “Potrebbe essere un selfie di due persone, all’aperto, con la Torre di Pisa”.

La certezza dell’identificazione, trattandosi di dati non strutturati, non c’è. E infatti le descrizioni generate dall’AI cominciano con la premessa che “potrebbe trattarsi di…”.  In un’altra fotografia che ritrae un gruppo musicale, l’intelligenza artificiale ha correttamente riconosciuto l’artista e la presenza di strumenti a percussione, sbagliando, però, il conteggio dei cappelli.

(Foto: Facebook)

 

A differenza di tecnologie simili sviluppate dalla concorrenza, quella di Facebook riporta anche informazioni sulle posizioni dei soggetti nelle fotografie. Per esempio, anziché dire che in una foto ci sono cinque persone, specifica che due si trovano al centro e tre sono ai margini della scena. Oppure, invece di dire che “potrebbe trattarsi di una casa e di una montagna”, spiega che la montagna è l’oggetto principale, che occupa gran parte della scena, mentre la casa è un dettaglio.

Stando alle dichiarazioni di Facebook, questa tecnologia è stata finora sviluppata (e lo sarà in futuro) soprattutto per consentire alle persone non vedenti e ipovedenti di fruire il contenuto delle immagini. Non è difficile però intuire le potenzialità di sistemi come questi per la raccolta e le analisi dei dati per fini di marketing, in un contesto di mercato nel quale conoscere nel dettaglio gli utenti aiuta le aziende a intercettare nuovi bisogni emergenti e nuove tendenze. Anche grazie all’intelligenza artificiale (o per colpa sua) i contenuti che pubblichiamo sui social diventeranno sempre di più una miniera di informazioni utili per le aziende che devono venderci qualcosa.

 

ARTICOLI CORRELATI