04/12/2023 di Valentina Bernocco

Integrare i dati è difficile e costoso, la data platform è la risposta

Molte aziende sono ancora alle prese con silos di dati ed elevati costi di integrazione. Cloudera fa evolvere la propria offerta per garantire ancora maggiore flessibilità.

data-integration-cloudera.jpg

I silos di dati sono ancora un problema per le aziende: sembra paradossale, in tempi di rapide innovazioni tecnologiche, che molte non riescano a superare questo ostacolo. Ma guardando più da vicino se comprendono i motivi. “La frammentazione dei dati è ancora un tema attuale”, ha detto Fabio Pascali, regional vice president Italy di Cloudera, durante un incontro con la stampa. “Ogni divisione aziendale tende a sviluppare strumenti e analytics ad hoc, e questo genera una complessità che porta da un lato a costi incrementali e dall’altro alla difficoltà di collegare tra loro questi dati. Per superare questo vincolo è spesso richiesto un impegno importante in termini di lavoro, budget e integrazioni, quindi magari le aziende rimandano la soluzione del problema più in là nel tempo”.

Il problema è evidenziato da una nuova ricerca commissionata da Cloudera a Coleman Parkes Research e condotta tra marzo e aprile scorsi su 850 decisori IT di aziende da oltre mille dipendenti (fra cui un centinaio di italiane). Tra gli intervistati, il 66% teme che nella propria azienda i dati siano “fuori controllo” e il 63% ha citato la frammentarietà come ostacolo per il rispetto della compliance. Molte aziende utilizzano software per la gestione dei dati e per gli analytics, ma molto spesso (79% dei casi) è difficile integrarle tra loro e garantire la conformità diventa ancor più complicato.

L’integrazione di soluzioni puntuali per la gestione dei dati e gli analytics rappresenta una sfida per quasi tutte le aziende (99%) e questa attività è spesso costosa (in media assorbe il 28% del budget IT annuale). Secondo questo studio, le aziende italiane risultano essere in fase di maturità avanzata nella gestione dei propri dati. Ma i costi sono notevoli: un’azienda su tre dedica alla gestione dei dati una quota compresa tra il 20% e il 30% del proprio budget IT annuale; una su cinque spende tra il 30% e il 40%; una su sei addirittura più del 50%.

(Fonte: Cloudera e Coleman Parkes, novembre 2023)

(Fonte: Cloudera e Coleman Parkes, novembre 2023)

Estrarre valore dai dati

Di fronte a queste sfide, la risposta di Cloudera è la data platform, ovvero la costruzione di un’architettura, un modello per i dati (strutturati e non) che permetta di integrarli, gestirli e analizzarli per molteplici scopi, dalla Business Intelligence classica alle analisi predittive. “Senza un modello di dati non si può estrarre valore”, ha sottolineato Pascali. “Prendiamo il caso dell’industria 4.0: si può fare manutenzione predittiva solo se si raccolgono e si analizzano con algoritmi di machine learning tutti i dati continuamente prodotti dagli ambienti di fabbrica intelligente. Il dato ha un valore duplice nel tempo: è importante quando viene generato e anche successivamente. Quindi i dati IoT delle macchine di produzione sono utili, analizzati in tempo reale, per capire se tutto stia funzionando e quegli stessi dati possono poi servire per ottenere insight su come ottimizzare il magazzino, l’approvvigionamento o la manutenzione”.

I casi d’uso per una data platform sono potenzialmente infiniti e quasi sempre i dati in tempo reale sono tanto preziosi quanto quelli archiviati. Altri esempi citati dal manager italiano sono la gestione delle reti informatiche, la telemedicina (dove i dati real time sono preziosi nelle attività di emergenza), il settore farmaceutico (dove è essenziale garantire sicurezza e tracciabilità di ogni operazione), la finanza (dalle applicazioni per la scoperta delle frodi all’automazione delle pratiche di gestione di prestiti e mutui).

L’accordo con Aws per data lakehouse e AI

Cloudera collabora con i principali cloud provider mondiali, inclusi Microsoft Azure e Google Cloud, ma ha una relazione speciale con Amazon Web Services. Lo scorso settembre è stato siglato un accordo definito di “collaborazione strategica”: la soluzione di data lakehouse di Cloudera è ora disponibile sul marketplace di Aws e può essere utilizzata direttamente in public cloud, con tutti i vantaggi di scalabilità che ne derivano. Tale soluzione di basa su Apache Iceberg, un formato open source per la gestione tabelle dati di grandi dimensioni.

“Il data lakehouse è una fusione tra il mondo tradizionale dei data warehouse, utilizzati per attività di Business Intelligence, e quello più moderno dei datalake, utili per la data science”, ha spiegato Pascali. “Grazie ad Iceberg le aziende possono creare un unico ambiente per differenti team, che utilizzano gli stessi dati per finalità diverse. L’unicità di Cloudera è che mettiamo a disposizione questo strumento sia on-premise sia in cloud, senza costringere i nostri clienti in una direzione o nell’altra”.

Non è tutto: dallo scorso ottobre la piattaforma di Cloudera è ora integrata con diversi servizi di Aws per l’intelligenza artificiale generativa, tra cui Amazon Bedrock (libreria di modelli fondativi, API e altri strumenti per sviluppatori), Amazon SageMaker JumpStart, Aws Trainium, Aws Inferentia, Amazon CodeWhisperer, Aws HealthScribe e Generative BI in Amazon QuickSight.

“L’intelligenza artificiale è una componente applicativa posta sopra alla nostra piattaforma", ha precisato Pascali. "Tuttavia nel caso dell’AI generativa, vista la sua importanza, abbiamo deciso di integrarla al suo interno. Vediamo che i principali ostacoli all’adozione sono, per le aziende, l’incertezza del risultato (allucinazioni e assenza di contesto) e la sicurezza (perché usare un SaaS esterno significa esportare dati aziendali all’esterno). L’approccio da noi scelto è quello della trust AI”.

Attraverso una collaborazione con Hugging Face, Cloudera mette a disposizione dei modelli preallenati, che possono essere arricchiti e integrati con i dati delle aziende clienti. Questo approccio consente di aumentare le informazioni di contesto e ridurre il rischio di output incoerenti, e allo stesso tempo permette di mantenere il controllo sui dati aziendali.

Fabio Pascali, regional vice president di Cloudera

Fabio Pascali, regional vice president di Cloudera

Libertà di scelta e flessibilità

La tecnologia di Cloudera non sposta i dati primari dalle rispettive sedi di origine (per esempio Erp, sistemi di building, software finanziari) ma cattura ed esporta i log, immettendoli in un datalake o data lakehouse (architettura che mette insieme caratteristiche del data warehouse e del datalake). Si possono quindi eseguire analisi su dati di diverso tipo, provenienti da sistemi differenti e collocati su diverse sorgenti, on-premise e in cloud. A seconda del caso d’uso, si possono introdurre dati esterni all’azienda, come quelli relativi al meteo, al traffico o dati tratti dal Web. “Cloudera ha il vantaggio di lasciare il cliente completamente libero di scegliere se e quali dati conservare on-premise, se spostarli nel cloud di qualsiasi fornitore o se tenerli in un ambiente ibrido”, ha sottolineato Pascali. “Questa libertà è uno dei pilastri del valore aggiunto di Cloudera”.

Il fatto che la data platform non crei vincoli nelle scelte di infrastruttura è particolarmente importante in un’epoca di “migrazioni” e “rimpatri”. Sul totale degli intervistati da Coleman Parkes, il 68% conserva i propri dati sia in ambienti cloud on-premise o privati sia in ambienti pubblici. La maggior parte incrementerà l’utilizzo del cloud da qui ai prossimi tre anni, ma moltissimi responsabili IT (il 76%) pensano anche di riportare on-premise una parte dei dati e carichi di lavoro. “Questi risultati sembrano un paradosso”, ha commentato Pascali. “In realtà le aziende sono arrivate a capire le potenzialità degli cloud ma anche i suoi limiti. Per un’applicazione che dev’essere attiva 24 ore al giorno, difficilmente si otterrà un vantaggio di costi, mentre per altre sì. Inoltre il vero grande beneficio del cloud è la flessibilità”.

Cloudera in Italia

Mentre a livello mondiale i ricavi annui di Cloudera hanno superato il miliardo di dollari, la crescita prosegue anche in Italia e a testimonianza di ciò l'azienda ha da poco inaugurato una sede a Milano, strategicamente posizionata in piazza Gae Aulenti. “È un riconoscimento del peso dell’Italia”, ha commentato Pascali. “Stiamo crescendo soprattutto nel settore della Pubblica Amministrazione, in particolare quella centrale, che è oggi il quarto pilastro del nostro business insieme ai settori finanza, telco ed energia. Siamo siamo presenti nell’80% delle applicazioni della PA centrale”.

Il futuro? Se il presidio storico sono le organizzazioni di grandi dimensioni, ora la disponibilità della piattaforma nel marketplace di Aws abbassa la soglia di accesso e potrà agevolare l’adozione di Cloudera tra le medie aziende. “Abbiamo anche progetti importanti per il settore manifatturiero”, ha aggiunto il regional vice president. “Le aziende industriali possiedono molti dati ma spesso non li usano come potrebbero per ottenere insight. Un’altra area interessante e di potenziale sviluppo, specie se guardiamo alle nostre attività all’estero, è il settore farmaceutico. Inoltre pensiamo alla Pubblica Amministrazione locale, come gli enti della sanità, dove possiamo ancora fare molto. In tutto questo, l’ecosistema dei partner è fondamentale per aumentare la nostra capacità, dal punto di vista sia commerciale sia di delivery e di sviluppo dei casi d’uso”. 

(Immagine in apertura tratta da Freepik)

scopri altri contenuti su

ARTICOLI CORRELATI