Che cos’è il data lakehouse e come può aiutare le aziende ad affrontare le sfide di gestione dei dati? Può, questa tecnologia, essere una risposta anche alle esigenze di governance dei progetti di intelligenza artificiale, il tema caldo degli ultimi anni? Ci porta il suo punto di vista Mirko Gubian, global demand senior manager & partner di Axiante.
Qual è lo scenario generale della gestione dei dati nelle aziende? Quali le principali difficoltà da superare?
Viviamo in un mondo iperconnesso, fatto di ambienti informatici diversi, on-premise e in cloud, collegati fra loro in architetture ibride. Nonostante l'iperconnessione, nelle aziende esiste ancora un problema di silos informativi. Gestire una loro integrazione completa o, se così vogliamo dire, “rompere” i silos è una delle sfide da affrontare per migliorare la visibilità sui dati e potenziarne l’utilizzo a beneficio anche dell’utilizzo di applicazioni evolute. Faccio un esempio: avere dati in compartimenti stagni significa non poter alimentare correttamente i modelli di machine learning e intelligenza artificiale.
E come affrontarla, questa sfida di integrazione?
Sicuramente va affrontata tenendo presente i temi della cybersecurity e della compliance, temi che rendono ancora più importante nella gestione dei dati una forte governance, quindi policy di qualità, sicurezza e soprattutto di lineage e stewardship del dato. Richiede, in altre parole, qualcuno che in azienda funga da “coordinatore dei dati”. Avere una figura che coordina i dati permette di allineare obiettivi, processi e responsabilità tra i reparti, evitando che la gestione integrata venga vista solo come un compito tecnico, quando in realtà coinvolge scelte strategiche, organizzative e di business e quindi obiettivi anche di responsabilità e coordinamento.
Restando però sugli aspetti tecnici e tecnologici, la scelta dell’architettura dati è fondamentale per un'integrazione e quindi per centralizzare e armonizzare dati provenienti da fonti diverse. Ma non possiamo sottovalutare che questa scelta dipende anche dal budget disponibile. Al di là di ciò, a livello ideale, soluzioni come il data warehouse e il data lake possono essere indicate per alcuni casi d’uso: il “magazzino” di dati è ancora lo strumento migliore se l’esigenza è rispondere in modo efficiente a domande note a priori, prima della progettazione del sistema e destinate a non variare nel tempo (per esempio, per capire quali siano le vendite realizzate in una determinata regione e periodo di tempo), mentre il “lago” consente di raccogliere dati da cui si pensa di poter trarre informazioni e insight senza però conoscere già le domande da porre (per esempio, per trarre indicazioni dai comportamenti di acquisto online di un bacino di clienti).
Il data lakehouse è un’unione delle due cose: si usano le tecniche del data lake per immagazzinare i dati, ma una parte di essi può confluire in un data warehouse strutturato. Si tratta di una scelta architetturale che presenta diversi vantaggi e ben si sposa con l’attuale scenario di adozione del cloud da parte delle aziende.
Mirko Gubian, global demand senior manager & partner di Axiante
In che senso? Che vantaggi presenta e quando è indicato un data lakehouse?
Innanzitutto, Il data lakehouse unisce i punti di forza di due architetture ormai consolidate: il data warehouse e il data lake. Tra i principali vantaggi c’è la disponibilità del dato in tempo reale, elemento cruciale in moltissimi contesti e settori. Proprio per questo, il data lakehouse è una soluzione trasversale, adatta a diversi mercati e processi aziendali.
Ad esempio, in ambito industriale può essere utilizzato per il monitoraggio degli impianti, il controllo dei consumi energetici o la manutenzione predittiva, grazie all’analisi delle sequenze cronologiche di eventi effettuata tramite modelli di machine learning. In altri contesti, come l’e-commerce, la logistica o la gestione del magazzino, consente di analizzare grandi volumi di log e ottenere insight utili a ottimizzare le operazioni.
Un altro punto di forza del data lakehouse è la possibilità di adottare un approccio data mesh, che favorisce architetture decentralizzate rispetto al classico modello centralizzato basato su un unico grande database. Questo è particolarmente efficace in ambienti cloud, dove è possibile migrare i data warehouse esistenti da on-premise con un lift-and-shift, senza la necessità di riprogettarli da zero.
Infine, l’adozione del data lakehouse in cloud porta con sé tutti i benefici tipici di queste soluzioni: flessibilità, performance elevate e l'accesso a un ecosistema di strumenti già integrati e facilmente attivabili in base alle esigenze aziendali, ovunque e in qualsiasi momento.
A proposito di intelligenza artificiale, i rapidi sviluppi di questa tecnologia e in particolare dell’AI generativa che impatto hanno avuto sulla gestione dei dati?
Innanzitutto, ha introdotto nelle aziende nuove tipologie di dati da gestire, spesso non strutturati, come testi, immagini e audio, che richiedono tecnologie diverse rispetto ai tradizionali database relazionali. Un esempio è l’adozione crescente dei database vettoriali, fondamentali per archiviare ed elaborare le rappresentazioni numeriche (embedding) utilizzate dai modelli generativi. Fino a pochi anni fa, queste soluzioni erano quasi sconosciute, ma oggi sono centrali in molte architetture dati.
In parallelo, si stanno affermando approcci come il data lakehouse, che consentono di ospitare e gestire in modo integrato dati eterogenei, inclusi quelli prodotti o utilizzati dai modelli generativi: dai dati di addestramento, agli output, fino ai prompt stessi. Un’altra innovazione apportata dall’AI è rappresentata dai dati sintetici, generati artificialmente dalla stessa AI per simulare scenari reali e alimentare ulteriormente i modelli, riducendo i rischi legati alla privacy e alla scarsità di dati reali.
Infine, l’intelligenza artificiale non si limita a generare nuovi dati: sta diventando essa stessa uno strumento chiave per la loro gestione. I moderni strumenti di data management integrano modelli AI per automatizzare compiti complessi come la creazione di correlazioni, il miglioramento del data lineage, la classificazione automatica e il rilevamento delle anomalie. In questo modo, l’AI non solo contribuisce ad aumentare il volume dei dati, ma aiuta anche a governarli in modo più efficiente e intelligente.
Qual è l’approccio di Axiante ai progetti di data lakehouse?
Il nostro approccio è innanzitutto agnostico rispetto alla tecnologia e al cloud provider, che si tratti di Microsoft, Google o AWS, peraltro la logica progettuale non cambia. Inoltre la scelta della piattaforma dipende spesso da decisioni tecnologiche già prese dal cliente. Quando invece si parte da zero, effettuiamo un assessment iniziale per identificare la soluzione più adatta alle specifiche esigenze. E non consideriamo il cloud un vincolo assoluto, ma un'opportunità modulabile: può essere adottato anche solo per alcune fasi della gestione e integrazione dei dati.
Le tempistiche e i costi variano in base all’obiettivo, alla complessità del progetto: un semplice lift-and-shift è molto diverso dalla creazione ex novo di un ecosistema di reporting e data lakehouse. In questi ultimi casi, proponiamo di procedere con proof-of-concept che, in poche settimane, permettono all’azienda di toccare con mano i benefici dell’architettura finale e di finalizzare il progetto. PoC che offriamo spesso “chiavi in mano” dando al cliente la possibilità di testare concretamente il valore della soluzione senza rischi economici iniziali: paga solo se i benefici sono reali. Questo approccio conferma il forte orientamento di Axiante, in qualità di business innovation integrator, ai risultati, anzi a risultati misurabili. Il nostro obiettivo ultimo è sempre quello di valorizzare al massimo i dati come risorsa e di confermarlo attraverso metriche chiare che misurino sia l’efficienza nella loro gestione, sia il valore concreto che il progetto apporta all’organizzazione.