27/01/2017 di Redazione

Dal “magazzino” al “lago” di dati: una trasformazione necessaria

Il country manager italiano della californiana Talend ci illustra come siano mutate negli ultimi anni le esigenze di conservazione e uso dei dati. Per esempio, con l'intelligenza artificiale e con le attività di data preparation.

immagine.jpg

Nell'era dei Big Data, il modo in cui le informazioni vengono custodite e trattate si è trasformato profondamente. Un tempo lo strumento principe era il data warehouse, ovvero una sorta di grande archivio pensato per raccogliere grandi quantità di dati, che poi venivano classificati e ordinati all'interno di database relazionali. Se ne è parlato per diverso tempo nel primo decennio di questo secolo, ma in pochi anni lo scenario è radicalmente cambiato, complici l’esplosione di dati generati dalle fonti più disparate, ma anche nuove esigenze di governance e collaborazione che le tecnologie tradizionali faticano a soddisfare.

Oggi inizia a farsi largo il concetto di data lake, idealmente non troppo diverso da quello di data warehouse, ma più aggiornato alle attuali tendenze (come il cloud e l'utilizzo di Apache Hadoop come framework per l’accesso e il calcolo distribuito). Un strumento che consente di creare un repository centralizzato dove immagazzinare grandi quantità di dati a costi relativamente contenuti. Un esperto di questo approccio è Talend, società francese fondata nel 2006 ma oggi domiciliata a Redwood City, California. Oggi conta oltre 500 dipendenti e 1.300 aziende clienti nel mondo, tra cui Air France, Findus, Groupon, Lenovo, Sky Deutschland e Virgin Mobile.

Per affrontare al meglio il tema della trasformazione digitale, è inevitabile che un’azienda evolva in direzione data-driven”, spiega Massimo Tripodi, country manager di Talend Italia. “Con un modello data lake è possibile partire da semplici casi d’uso, poi passare all’infrastruttura e, infine, aggiungere temi come la condivisione e la governance dei dati, ma anche il machine learning, la gestione dei metadati o l’accesso self-service. Per evitare che un progetto fallisca, tuttavia, occorre capire quali informazioni acquisire e che cosa farne, controllarne la qualità e rendere possibile un accesso più universale”.

L'offerta di Talend si fonda sul concetto di data fabric, cioè un ambiente software che permette di elaborare, organizzare e manutenere set di dati delle più disparate provenienze, gestendoli su piattaforme Big Data come Apache Hadoop o Apache Spark, in modo coeso, integrato, controllato e accessibile in modalità self-service. Lo specifico prodotto, cioè la piattaforma Data Fabric, è appena stato aggiornato alla versione Winter '17 proprio per soddisfare alcune delle esigenze elencate da Tripodi. L’obiettivo di questo aggiornamento”, sottolinea il country manager, “è di rendere disponibili dati di qualità, validati e utili per il business, in modo che si possa usare una logica self-service per agevolare il lavoro di tutti gli interessati in azienda”.

Con l'attività didata preparation” gli utenti possono accedere a qualsiasi fonte (ambienti tradizionali, Hadoop o cloud) e utilizzare un “data dictionary” pre-configurato per il riconoscimento automatico del valore dei dati grezzi messi a disposizione dal data lake. A questo si aggiunge la cosiddetta data stewardship”, che rende omogenei tutti i dati, anche quelli che l’algoritmo di machine learning non sa gestire in termini di eccezioni. Con questa edizione, inoltre, il supporto è stato esteso alla recente versione 2.0 di Spark, ma anche ad Amazon Web Services, a Salesforce e a distribuzioni Hadoop come Cloudera, MapR e Hortonworks.

 

Massimo Tripodi, country manager di Talend Italia

 


Per tradizione, Talend rilascia due volte all’anno un aggiornamento della propria Data Fabric, per assicurare la costante evoluzione della soluzione in un contesto soggetto a cambiamenti piuttosto frequenti. Questa scelta, abbinata a quella totalmente open source (con il vantaggio di poter sfruttare quanto prodotto dalla community degli sviluppatori) e a un modello commerciale basato sul canone annuale (il tasso di rinnovo è al 98%, secondo il vendor), è alla base di una crescita che da sei anni mantiene il ritmo del 40% all’anno.

In Italia, la società franco-californiana aveva già tentato di affermarsi qualche anno fa, per poi tornare con decisione con una presenza diretta nel 2016. “Abbiamo chiuso il primo anno di attività con un surplus del 175% rispetto al budget assegnato”, sottolinea Tripodi, “e abbiamo acquisito 22 clienti, con alcune eccellenze soprattutto nel settore finanziario. Nel 2017 porteremo l’organico a dieci persone e costruiremo una rete di partner che dovrà sostenerci nelle attività di implementazione, consentendo di concentrarci sul rafforzamento del brand e sulla parte di supporto. Già oggi, comunque, quasi tutto il business locale viene generato attraverso il canale”.

 

ARTICOLI CORRELATI