I dati non sono una questione semplice: sono tanti, eterogenei, non sempre rilevanti e non sempre di qualità, spesso non abbastanza aggiornati oppure nascosti agli occhi dell’IT aziendale, che non ne conosce la collocazione. Inoltre aumentano senza sosta e questo è vero soprattutto per quelli di natura non strutturata, come i bit generati dall’Internet of Things e dalle interazioni Web.
L’attuale scenario delle infrastrutture IT, un po’ in tutti i settori e dimensioni d’azienda, è essenzialmente descrivibile in due parole: ibrido (ovvero composto da una commistione di risorse on-premise e cloud) e multicloud (basato, cioè, sulle infrastrutture e di più fornitori, hyperscaler e non). Nonostante queste complessità, gestire e trarre valore dai dati può diventare una questione semplice, o più semplice, se si utilizzano piattaforme adatte e in grado di centralizzare la gestione e la governance.
Una recente ricerca di Cloudera ha evidenziato che tra le aziende medie e grandi le infrastrutture ibride sono la maggioranza (utilizzate dal 67% del campione), in sovrapposizione a scelte di fornitura multi-provider (68%). “Un fatto interessante”, ha commentato Fabio Pascali, regional vice president Italy di Cloudera, “è che in queste aziende il 32% dei dati non è ancora utilizzato in maniera efficace, e questo è vero soprattutto per i dati non strutturati. C’è dunque spazio di miglioramento”.
Migrazione e “rimpatrio”, due movimenti opposti
Altre due evidenze sono illuminanti: il 97% delle aziende prevede di spostare in cloud, o “migrare” come si suol dire, una maggior quantità di dati nei prossimi tre anni, ma c’è anche un 78% che intende riportarne una parte on-premise. Una contraddizione? “La spiegazione di questi risultati”, ha proseguito Pascali, “è che le aziende, e con loro i system integrator, stanno facendo fine tuning. Man mano che apprendono i pregi e i limiti del mondo cloud, stanno raffinando le loro scelte”.
Scelte che derivano, oggi, ancora in larga parte da considerazioni di costi, anche se valgono anche motivazioni di compliance e flessibilità. Se storicamente si è guardato al cloud come a un’alternativa low cost, oggi la visione sta cambiando. Il risparmio sulle spese Capex è ovvio e innegabile, ma per taluni carichi di lavoro l’on-premise, dal mero punto di vista dei costi, potrebbe alla lunga risultare più conveniente.
“Si decide di non spostare i dati in cloud soprattutto per ragioni di compliance o sicurezza”, ha commentato il regional vice president, “ma c’è anche un tema di costi. Alcuni workload che per loro natura devono essere attivi sempre, 24/7, in cloud non costeranno di meno”. Da qui nasce il ripensamento delle aziende che stanno effettuando o valutando di effettuare un "rimpatrio" di parte dei propri dati e carichi di lavoro. “Anche in Italia si osserva una tendenza al rimpatrio on-premise, ma meno che in altri Paesi, mentre c’è una maggiore accelerazione verso il public cloud”, ha precisato Pascali.
Altre ragioni che, in prima battuta, allontanano le aziende dall’idea di “migrare” sono i timori di vendor lock-in, cioè dei vincoli di esclusività imposti da alcuni fornitori cloud, specie dagli hyperscaler, per l’utilizzo di alcune piattaforme e applicazioni. Ed è qui che si innesta la strategia di Cloudera: la sua Data Platform è, come suggerisce il nome, una piattaforma (e non una infrastruttura) che permette alle aziende di gestire e analizzare qualsiasi tipo di dato da qualsiasi tipo di fonte, on-premise e in cloud (privato o pubblico, anche mescolando i fornitori IaaS). Agnostica rispetto all’infrastruttura sottostante, non pone vincoli di vendor lock-in.

Gestione centralizzata in un mondo multicloud
“Abbiamo visto che concentrarci sul PaaS e sui dati, cioè su quello che sappiamo fare meglio, lasciando ai provider le attività di infrastruttura, è l’approccio vincente”, ha sottolineato Pascali. “È vero che con il multicloud si devono gestire maggiori complessità, workload, tecnologie, ambienti e casi d’uso. Ma se la piattaforma dati è unica dal punto di vista logico e se consente di avere un approccio unico alla sicurezza, alla governance e alla data lineage, allora la complessità si riduce”
La piattaforma ha un’ossatura importante nel data fabric, che esprime la capacità di centralizzare i dati ma anche di costruire dei prodotti (che Cloudera chiama data as a product) da rilasciare ai vari dipartimenti, abilitando il data mesh. “In realtà non è vero che alcune soluzioni siano in contrapposizione tra loro”, osserva il manager italiano. “Si può avere una governance centrale ma poi, con il data mesh, rilasciare prodotti ai vari dipartimenti”.
La tecnologia di Cloudera può essere utilizzata su risorse locali o come Platform as-a-Service, per erogare servizi che spaziano dagli analytics in tempo reale al data warehousing, dall’automazione di flussi di dati, ad applicazioni database, fino al machine learning e altro ancora. L’ultima frontiera è l’integrazione dell’intelligenza artificiale generativa, che con le sue interfacce conversazionali (dunque comandi impartiti in linguaggio naturale) semplifica la consultazione e l’interrogazione dei dati.
Porte aperte all’AI generativa
“Sull’AI c’è molto hype”, ha ammesso il regional vice president. “Ma le aziende come Cloudera cercano di capire le richieste dei clienti e soprattutto come poterle trasformare in valore per loro. Il limite di queste tecnologie, per le aziende, è il fatto di dover concedere accesso ai propri dati a strumenti che stanno dall’altra parte del mondo. C’è un rischio di perdita di controllo sulle informazioni e anche di qualità dei dati”.
L'integrazione dei large language model (Llm) dell’AI generativa nella Data Platform consente invece di mantenere la proprietà e il controllo sui dati e anche di ottenere risposte contestualizzate, dunque più pertinenti. Appena presentato, Llm Chatbot Augmented with Enterprise Data è il primo di una serie di prototipi applicativi di machine learning distribuibili direttamente dal servizio Cloudera Machine Learning. Utilizza, appunto, tecnologie e librerie open source per integrare funzioni di intelligenza artificiale generativa nei casi d’uso aziendali.

Fabio Pascali, regional vice president Italy di Cloudera
Dalla Pubblica Amministrazione alla sanità
Cloudera si rivolge principalmente alle aziende di dimensione medio-grande ed enterprise, nonché agli enti della Pubblica Amministrazione. Un’area che, anche in Italia, mostra una domanda crescente di soluzioni per la digitalizzazione e la gestione dei dati; e un’area, soprattutto, ancora molto legata all’on-premise e per la quale dunque l’impostazione “ibrida” di Cloudera è un valore aggiunto. Altri settori di sbocco primari sono i servizi finanziari (per esempio per attività di gestione del rischio e rilevamento delle frodi), il manifatturiero (spinto dalle necessità di analisi dei dati IoT), le telecomunicazioni, le utility dell’energia e la sanità (la Piattaforma Nazionale di Telemedicina, oggi in fieri, si baserà sulla piattaforma dati di Cloudera, utilizzata in ambiente ibrido).
In Italia l’azienda sta crescendo, più che tramite l’acquisizione di nuovi clienti, grazie all’allargamento dei progetti e dei casi d’uso tra i clienti esistenti. “La nostra crescita”, ha rimarcato Pascali, “deriva dal fatto che i clienti stanno effettivamente utilizzando i dati in modo efficace. Sono progetti che derivano da logiche business, e se il business non vede risultati e un ritorno sull’investimento, allora non rinnova il contratto".
Il ruolo dell’ecosistema
Fondamentale è il lavoro svolto dai system integrator (Accenture e Lutech sono due dei principali partner di ecosistema) per definire i progetti e le necessità di implementazione. “Per noi fanno la differenza, perché la nostra è una piattaforma trasversale e chi crea il caso d’uso è il system integrator”, sottolinea Pascali. “Possiamo contare su un ecosistema ampio, con un centinaio di partner e system integrator, tra i quali stanno aumentando le certificazioni”.
Il futuro? Oltre alla già citata intelligenza artificiale generativa, un’area di sviluppo è quella dell’osservabilità, sulla quale Cloudera ha da poco lanciato un nuovo servizio. Inoltre stanno ora maturando i frutti dei molti progetti di data lakehouse avviati negli ultimi anni. “La strategia che chiamiamo hybrid data cloud”, ha concluso Pascali, “