21/01/2015 di Redazione

Google porta Cloud Dataflow su Apache Spark grazie a Cloudera

Al via l’accordo tra il gigante di Mountain View e la società di data management. Big G sta cercando nuove strade per portare fuori dallo stato sperimentale il suo modello di programmazione basato sulla “nuvola”, testando l’applicativo in ambienti di svil

immagine.jpg

Google e Cloudera da oggi lavoreranno insieme per applicare il Cloud Dataflow di Mountain View al motore elaborazione dati di Apache Spark. Lo strumento nato per elaborare enormi quantità di informazioni, presentato a giugno 2014 per essere utilizzato al posto di MapReduce, permette agli sviluppatori di creare e monitorare ingenti flussi di dati da elaborare senza preoccuparsi del sottostante cluster di elaborazione. Cloud Dataflow è un servizio ospitato sulla piattaforma di proprietà di Google, che dipende da altri progetti di Big G: Compute Engine, Cloud Storage e BigQuery.

Come sottolineato da Google nel suo comunicato, “oggi viene fatto un altro passo per assicurare la portabilità di Dataflow, lavorando con Cloudera per farlo funzionare su Spark”. L’obiettivo della società di Mountain View è quello di aumentare la compatibilità del suo modello di programmazione basato sulla “nuvola”. Il 18 dicembre scorso, Google ha infatti lanciato un Software Developer Kit (Sdk) in Java per aiutare gli sviluppatori a integrare Dataflow in linguaggi e ambienti di programmazione differenti.

La partnership con Cloudera va proprio in questo senso perché permette di far funzionare l’applicativo di Big G anche su macchine locali. La versione “aggiornata” di Spark è ora disponibile su GitHub, considerato da Cloudera un “incubatore” pensato soltanto per test e prove sperimentali.

 

ARTICOLI CORRELATI