08/12/2014 di Redazione

Big Data: dopo Hadoop è arrivato il momento di Spark?

Il progetto, seguito dalla Apache Software Foundation, ha conquistato l’attenzione di oltre 460 sviluppatori e promette di rivoluzionare il settore grazie alla velocità raggiungibile con tecniche di machine learning e analisi predittiva.

immagine.jpg

Negli ultimi anni, Apache Hadoop ha letteralmente rivoluzionato l’approccio ai Big Data, permettendone l’analisi  in modo più semplice e meno costoso. Questo framework open source, utilizzato e personalizzato da tutti i principali vendor per le loro piattaforme, potrebbe essere presto soppiantato dal suo successore: Apache Spark. Come Hadoop, anche la sua evoluzione nasce per analizzare in parallelo grandi quantità di dati memorizzati su cluster di computer e può operare su dati non strutturati, ovvero non contenuti in tabelle di database. Spark, però, fa un passo avanti: analizza i dati anche durante il loro trasferimento, riducendo così notevolmente i tempi normalmente impiegati da Hadoop MapReduce.

In occasione dell’annuale Daytona Gray Sort Challenge, riporta negli Stati Uniti Computerworld, Spark ha facilmente superato in prestazioni Hadoop MapReduce, riordinando 100 terabyte di informazioni in 23 minuti: tre volte in meno rispetto ad Hadoop. Le “primitive” in-memory di Spark, secondo gli sviluppatori, in alcuni casi possono addirittura centuplicare le prestazioni. Inoltre, grazie alla possibilità di caricare dati nella memoria dei cluster ed effettuare query ripetute, questa soluzione software è particolarmente adatta per gli algoritmi di machine learning e per i modelli predittivi.

Il progetto Spark è stato lanciato da Matei Zaharia presso l’UC Berkeley AMPLab nel 2009 ed è diventato open source nel 2010 con licenza BSD. Nel 2013 è stato donato alla Apache Software Foundation e quindi la sua licenza è diventata la Apache 2.0. Nel corso del 2014, Spark ha attirato moltissima attenzione, diventando il progetto Apache più seguito, con oltre 460 programmatori ch ci hanno attivamente lavorato. Tra i primi ad adottare Spark si segnala Spotify, che lo utilizza per generare playlist sulla base dei gusti dell’utente.

Pur essendo nella sostanza un’evoluzione di Hadoop, Spark può benissimo affiancarsi al suo predecessore, essendo compatibile con l’Hadoop Distributed File System (Hdfs), oltre che con Cassandra, OpenStack Swift e Amazon S3. Non resta che vedere se il 2015 sarà l’anno di Spark.

 

ARTICOLI CORRELATI