Per Andrea Sappia, Solution Architect Italia di Infinidat, quando si parla di Big Data e analytics le aziende non possono prescindere da uno storage “affidabie” e “performante”

Negli ultimi anni, come ricordato da Infinidat, i Big Data e gli analytics workloads hanno rappresentato le principali sfide per le aziende, mettendo a dura prova le loro infrastrutture di storage.

La quantità di dati prodotti è aumentata esponenzialmente, anche in relazione al fatto che vengono originati da molte più fonti: le imprese di oggi, infatti, devono gestire e analizzare dati generati da un numero sempre più elevato di dispositivi, sia fissi che mobili. È, quindi, imprescindibile per le aziende ragionare in petabyte e non più in terabyte con la conseguente necessità di infrastrutture adeguate allo scopo.

Analizzando lo scenario più nello specifico, per Infinidat è possibile individuare 5 casi principali ai quali è possibili imputare questa rapida ed esponenziale crescita dei dati:

Miglioramento del servizio clienti: è una costante nelle aziende, grandi e piccole. Solitamente si tratta di dati relativi alle preferenze, alla navigazione online e ai criteri di ricerca.

Sicurezza digitale e rilevamento delle intrusioni: sono fondamentali per i clienti e vengono raccolti e analizzati in tempo reale. Per far ciò, è necessario contare su uno storage dalle grandi capacità.

Analisi operativa: implica la raccolta di dati e l’utilizzo degli stessi per identificare aree di miglioramento operativo, isolamento dei guasti e analisi break-fix. Così come per il rilevamento delle intrusioni, questi dati vengono generati e analizzati in tempo reale. A differenza del rilevamento delle intrusioni, però, tutti i dati sono interessanti e mostrano trend delle macchine e dei processi che potrebbero risultare utili anche in un secondo momento.

Esplorazione dei Big Data: Come è possibile definire cosa sono i Big Data? Questo è possibile grazie a una raccolta continua di quantità di dati sempre più grandi.

Estensione del data warehouse: man mano che l’analisi di dati transazionali diventa un prerequisito per le aziende, si diffonde anche l’adozione di un data warehouse, anche tra le società più piccole.

In questo modo sarà possibile recuperare gli analytics già esistenti e archiviati anche all’interno di un data mart e aumentare i feed delle informazioni di fonti esterne per aumentare l’accuratezza, ridurre i tempi di esecuzione.

Dal punto di vista dello storage, tutti questi use case implicano la gestione di enormi set di dati, dove spesso il profilo I/O fornito è imprevedibile e parlando di workloads analitici, Big Data e applicazioni analitiche, non è possibile non avere a che fare con grandi blocchi di I/O, che possono causare problemi alle piattaforme di storage tradizionali. Da qui nasce l’esigenza di un sistema moderno che offra un’avanzata architettura di caching multistrato, che garantisca la massima disponibilità dei dati, aspetto critico per ogni sistema di storage.

Da qui una logica conclusione, ossia che le aziende moderne devono ragionare in petabyte se vogliono implementare progetti in ambito Big Data e analytics.

Non è, infatti, più possibile affidarsi ai sistemi di storage tradizionali che non sono in grado di supportare l’enorme quantità di dati prodotta e garantire al tempo stesso una maggiore capacità e un’elevata potenza di calcolo, senza compromettere affidabilità, efficienza e performance dei sistemi e delle applicazioni.

Proprio per rispondere alle nuove esigenze di mercato, lo storage InfiniBox di Infinidat è stato sviluppato per ridurre la latenza anche in presenza di grandi set di dati ed è in grado di configurare un sistema con molteplici petabyte di capacità effettiva in un unico rack da 19 pollici.

Inoltre, l’architettura di Infinidat fornisce un ambiente solido e dalla grande disponibilità, il 99,99999%. InfiniBox offre, infine, una serie di funzionalità di continuità end-to-end per il proprio business, incluso un mirroring asincrono da remoto e snapshot.

Grazie agli snapshots, il ripristino di un database può essere ridotto al tempo necessario per mappare i volumi nell’host (minuti anziché ore), usando un processo di ripristino e backup più tradizionale.