Trattare i dati come si faceva fino a qualche tempo fa oggi non è più pensabile. Specie se si tratta di dati non tradizionali, cioè non strutturati: immagini, video, log, conservati senza alcuno schema anzichénei classici database. La tecnologia flash da tempo ha permesso di velocizzare l'accesso ai dati, ma ora Pure Storage fa un passo ulteriore presentando una nuova architettura di storage all-flash adatto a trattare anche dati non strutturati e ad alimentare applicazioni cloud-native, analytics e intelligenza artificiale. Data Hub, questo il nome, è un'architettura adatta specialmente a workload non strutturati e data-intensive, dal momento che evita il problema dei compartimenti stagni, i “silos”, tipico dei sistemi a disco.

I silos di dati sono un punto di debolezza in ogni settore”, sottolinea Matt Burr, general manager FlashBlade di Pure Storage. “Le aziende hanno bisogno di estrarre valore dai dati anche quando questo valore è nascosto, il che è impossibile senza una visione d'insieme. Per questo abbiamo creato un sistema di storage data-centrico che soddisfa i requisiti applicativi attuali e futuri con una moderna piattaforma progettata per lavorare per conto dei clienti”.

Il Data Hub mette insieme le caratteristiche delle quattro soluzioni di analytics in silos comunemente usate dalle aziende: data warehouse, data lake, streaming analytics e cluster di AI. Diverse capacità risultano, quindi, integrate in un'unica piattaforma. Quali capacità? Al pari dei sistemi di backup e data warehouse, la soluzione di Pure Storage assicura, innanzitutto, un throughput elevato sia per lo storage a oggetti sia per l'archiviazione di file, come necessario per le applicazioni cloud-native e object-based.

Al pari delle soluzioni di data lake, poi, la piattaforma di Pure presenta un'architettura scale-out nativa, che consente di scalare senza limiti i lavori batch: è il software, e non l'utente, a gestire la resilienza e le prestazioni. Data Hub, inoltre, può processare qualsiasi tipo di dato e con qualsiasi modello di accesso, a seconda della velocità e dei tempi del flusso di dati, e può eseguire elaborazione in parallelo in modo che lo storage non rappresenti un “collo di bottiglia” in presenza di calcolo e networking molto rapidi.