Cresce l’uso di Apache Spark

Un’indagine rivela che il 57% degli intervistati menziona Cloudera come la piattaforma Spark preferita per i propri casi d’uso più importanti

Cloudera, fornitore globale di una piattaforma di analisi e gestione basata su Apache Hadoop, presenta i risultati di un nuovo studio volto a comprendere meglio il ruolo di Apache Spark nell’ambito dei Big Data. Condotta da Taneja Group, l’indagine ha coinvolto un campione di circa 7.000 persone, composto da ruoli tecnici e manageriali direttamente coinvolti in progetti Big Data in tutto il mondo. La survey ha preso in esame le esperienze con l’ipotesi di adozione e di distribuzione di Spark, oltre alle percezioni attuali, dei maggiori fornitori e del futuro di Spark in sé.

Parte integrante della soluzione CDH, supportato da Cloudera Enterprise, Spark è lo standard aperto per l’elaborazione flessibile dei dati in-memory che consente analisi batch avanzate e in tempo reale sulla piattaforma Apache Hadoop.

“Apache Spark si è evoluto rapidamente in uno dei principali progetti open source nell’ambito dei big data – ha dichiarato Mike Matchett, analista senior e consulente presso Taneja Group -. Abbiamo scoperto che, analizzando una vasta gamma di settori, dimensioni aziendali e livelli di maturità dei big dati rappresentati differenti, oltre la metà degli intervistati sta già utilizzando attivamente Spark. Si sta rivelando prezioso: il 64% di coloro che attualmente utilizza Spark sta pianificando di aumentarne notevolmente l’utilizzo entro i prossimi 12 mesi. Con un numero crescente di carichi di lavoro che richiedono lo streaming dei dati in tempo reale per l’analisi, l’emergere di applicazioni di apprendimento automatico e di casi d’uso in ambito data science, la piattaforma Spark è destinata a imporsi con l’obiettivo di dare seguito a queste richieste”.

I risultati della ricerca

I principali risultati dello studio Apache Spark Market Research Study comprendono un elevato livello di crescita e di slancio nell’utilizzo di Spark al di là dei carichi di lavoro di elaborazione dati/ETL/progettazione e di un futuro passaggio alle distribuzioni in cloud.

Altri risultati degni di nota sono:

● quasi la metà degli intervistati, il 54%, sta già utilizzando attivamente Spark. Di quelli che attualmente stanno utilizzando Spark, il 64% afferma che la piattaforma si sta dimostrando preziosa e che intendono ampliare l’uso di Spark entro i prossimi 12 mesi;

● anche l’adozione da parte di nuovi utenti Spark è in crescita con 4 persone su 10 esperti di progetti big data che prevedono di distribuire Spark a breve;

● il 57 % si affida a Spark, fornito da Cloudera, per i casi di utilizzo più importanti, oltre il doppio dei tre fornitori di Apache Hadoop più prossimi combinati insieme. I clienti che hanno scelto Cloudera rispetto ad altre soluzioni hanno evidenziato quali importanti elementi il suo modello in ambito sicurezza e governance conforme alle normative, stabilità e prestazioni, portabilità cloud e integrazione con una suite completa di servizi per l’elaborazione di dati, query, analisi e machine learning;

● a parte i carichi di lavoro previsti di elaborazione dei dati/progettazione/ ETL che costituiscono il 55 % dell’uso di Spark a oggi, le principali iniziative attive di Spark includono l’elaborazione di flusso in tempo reale, la scienza esplorativa dei dati e l’affermazione di Spark per l’apprendimento automatico, tutte aree in cui Cloudera continua a investire;

● le barriere per l’adozione e le problematiche rimangono però le stesse e sono in gran parte attribuite al gap di competenze nell’ambito dei big data e alla possibilità di ottenere una formazione adeguata in diversi formati (online, di persona, conferenza o fiera). Cloudera forma più professionisti Apache Spark rispetto a qualsiasi altro fornitore di Hadoop e li sostiene attraverso servizi professionali dedicati, consulenza e un ampio spettro di partner.

L’indagine descrive, inoltre, il ruolo superiore del cloud pubblico e di Spark: “È interessante notare che, mentre le distribuzioni di Spark on-premise sono oggi dominanti, c’è un forte interesse nell’effettuare la transizione di molte di queste distribuzioni nel cloud – ha dichiarato Matchett -. Nel complesso la distribuzione di Spark nel cloud privato e pubblico (IaaS o PaaS) dovrebbe aumentare in modo significativo dal 23% al 36% in futuro”.