30/06/2017 di Redazione

Hadoop e Cloudera aiutano a indagare fra i segreti del Dna

Il centro di ricerca genomica dell'Inova Translational Medicine Institute ha adottato Cloudera Enterprise in sostituzione del precedente sistema di data warehouse. Ha così migliorato le proprie capacità di raccolta e analisi dei dati, finalizzate alla med

immagine.jpg

Nel Dna unico di un singolo indivduo sono racchiusi sei miliardi di bit di informazioni. Già solo da questo numero si comprende quanto la gestione delle informazioni sia un'attività complessa per chi si occupa di ricerca clinica e genomica, raccogliendo e analizzando dati di migliaia di pazienti. Ne è esempio l'Inova Translational Medicine Institute (Itmi), cioè l'ente di ricerca interno al Centro Inova per la Salute Personalizzata di Falls Church, in Virgina. Proprio della personalizzazione della diagnosi e delle terapie il centro fa il suo pane quotidiano, un obiettivo che rientra fra quelli della cosiddetta medicina di precisione.

La personalizzazione dei piani di trattamento è resa possibile anche dalla ricerca genetica, ed è qui che per Itmi è entrata in gioco la tecnologia di Cloudera. È sua, infatti, la distribuizione di Hadoop scelta dall'istituto per rendere più veloce e facile l'opera quotidiana di raccolta e analisi dei dati.

Con il precedente sistema di data warehouse, l'Itmi impiegava settimane o addirittura mesi a estrarre e preparare i dati necessari ai ricercatori per indagare possibili correlazioni fra pazienti, alterazioni genetiche e predisposizione a sviluppare patologie come il diabete, i cancro o l'artrite. La crescita continua dei dati stava diventando insostenibile. “Non avremmo potuto continuare su questa strada”, spiega il chief data officer dell'Inova Translational Medicine Institute, Aaron Black. “I nostri ricercatori dedicavano l’80% del loro tempo nel gestire la confusione dei dati e solo una piccola parte all’analisi degli stessi”.

Con l'adozione di Cloudera, spiega Black, “questa situazione si sta pian piano invertendo. Ora possiamo accelerare il ritmo della scoperta genomica e cambiare drasticamente il modo in cui interagiamo con i nostri team di ricerca. Riteniamo che questo migliorerà la nostra capacità di fornire le giuste terapie ai pazienti”.

Prima di procedere all'implementazione vera e propria del nuovo database analitico è stato realizzato un proof of concept, costruito sull'infrastruttura cloud di Amazon Web Services così da non dover scomodare nuove risorse hardware. Dimostrati i vantaggi ottenibili, in poche settimane di lavoro si è passati all'implementazione on-premise. La soluzione include un database analitico di Cloudera, alimentato dal motore di query Apache Impala (in fase di progettazione): da qui si possono ottenere analisi Sql, con elevate prestazioni e con la possibilità di scalare verso l'alto fino a gestire petabyte di dati. Più utenti possono accedere in contemporanea al sistema per interrogare i dati.

 


 

Attualmente l'Itmi tiene traccia di circa novemila genomi completi sequenziati (di individui residenti in più di cento Paesi), con la previsione di crescere fino a 15mila in futuro. Il lavoro svolto con la soluzione di Cloudera ha già permesso di ottenere alcuni risultati importanti, come la scoperta di anomalie congenite precedentemente non diagnosticate in pazienti di età infantile. “Siamo ora in grado di ottenere risposte in pochi minuti e possiamo trovare delle correlazioni che prima erano inimmaginabili”, assicura Black. Processi che in precedenza richiedevano due mesi vengono ora completati in una settimana, ma in futuro si potrà ulteriormente comprimere i tempi entro poche ore.

 

ARTICOLI CORRELATI