15/01/2016 di Redazione

Yahoo generosa, donerà 100 miliardi di dati per il machine learning

Quello del colosso Web è l’archivio di dati più grande mai messo a disposizione della comunità, per scopi di ricerca accademica: 13,5 TB, corrispondenti a 100 miliardi di interazioni generate da 20 milioni di utenti. Ma anche Google e Facebook sono impegn

immagine.jpg

Con i dati non bisogna essere egoisti. Che siano ragioni filantropiche o di marketing, è certamente una buona notizia la scelta di Yahoo di donare alla comunità scientifica e accademica 13,5 TB di dati, corrispondenti a 100 miliardi di interazioni generate da 20 milioni di utenti di servizi come Yahoo News, Yahoo Sports, Yahoo Finance, Yahoo Movies, and Yahoo Real Estate, nonché del motore di ricerca dell’azienda di Marissa Mayer. Si tratta, in effetti, del più grande dataset – composto da informazioni anonimizzate, tag e correlazioni – mai reso disponibile da una compagnia privata.

“I dati sono la linfa vitale della ricerca sul machine learning”, ha scritto in un blogpost Explains Suju Rajan, director of personalization science degli Yahoo Labs. “Tuttavi,a avere accesso ad archivi che siano davvero di larga scala è un privilegio che, tradizionalmente, è stato riservato a ricercatori e informatici alle dipendenze delle grandi aziende, e fuori dalla portata della maggior parte degli accademici”. Partendo da questa considerazione, la società ha dunque deciso di rendere liberamente consultabili agli iscritti al programma Yahoo Labs Webscope i 13,5 TB, che sono frutto di un’opera di raccolta e catalogazione svolta tra febbraio e maggio dello scorso anno.

Per ovvie ragioni di rispetto della privacy, i dati e le interazioni monitorate sono stati anonimizzati, ma risultano utili ai fini di ricerca poiché adeguatamente mappati con informazioni come orari, provenienza geografica, sesso, fascia di età dei 20 milioni di utenti o come i titoli e le parole chiave delle notizie consultate online.

 

 

Il mondo della pubblicità e del marketing non è nuovo all’utilizzo di queste risorse, che non solo vengono processate ma alimentano e migliorano gli algoritmi di apprendimento automatico, e che servono a comprendere l’efficacia di una comunicazione, il gradimento di un prodotto, l’interesse verso un certo tema o notizia, e mille altre possibilità.

Donati alla comunità accademica, serviranno a ulteriori scopi. “Il nostro obiettivo”, ha proseguito Rajan, “è promuovere ricerche indipendenti nel campo dell’apprendimento automatico su larga scala e dei recommendation system, contribuendo a ridurre le distanze fra le ricerche accademiche e quelle sponsorizzate dalle aziende”. Fra coloro che hanno già detto di voler sfruttare la possibilità offerta da Yahoo ci sono la Carnegie Mellon University (che studierà metodi per capire automaticamente quali notizie interessano a diversi tipi di utente), la University of California in San Diego e l’istituto UMass Amherst Center for Data Science.

La “generosità” di Yahoo non è un caso isolato, perché in campo di machine learning e intelligenza artificiale altri colossi del Web stanno mettendo a disposizione il proprio sapere, i propri dati e addirittura il proprio hardware. Come nel caso di Facebook, che lo scorso dicembre ha scelto di aprire alla comunità open source la propria piattaforma di intelligenza artificiale, Big Sur. Un mese prima, invece, Google ha scelto di rendere open source la propria tecnologia di apprendimento automatico, TensorFlow, impiegata dall’azienda di Mountain View per migliorare le ricerche Web, l’archiviazione delle immagini e il funzionamento di Inbox.

 

ARTICOLI CORRELATI