Oracle migliora la produttività dei singoli data scientist

Oracle Cloud Data Science Platform permette di creare in modo collaborativo potenti modelli di machine learning

Oracle ha annunciato la disponibilità di Oracle Cloud Data Science Platform.

Al suo cuore c’è Oracle Cloud Infrastructure Data Science, che aiuta le aziende a costruire, allenare, gestire e implementare in modo collaborativo modelli di machine learning per aumentare il successo dei progetti in ambito data science.

A differenza di altri prodotti per data science che adottano una prospettiva individuale, Oracle Cloud Infrastructure Data Science aiuta a migliorare l’efficacia dei team di data scientist, offrendo funzionalità quali condivisione di progetti, cataloghi di modelli, policy di sicurezza di team, riproducibilità, verificabilità.

Oracle Cloud Infrastructure Data Science seleziona automaticamente i set di training ottimali attraverso processi di selezione e affinamento degli algoritmi AutoML, valutazione, spiegazione dei modelli.

Oggi, le aziende mettono a terra solo una frazione dell’enorme potenziale trasformativo dei dati, perché i team di data science non hanno un facile accesso ai dati corretti, né strumenti per costruire e implementare modelli di machine learning efficaci.

Ne consegue che i tempi di sviluppo diventano troppo lunghi, non si hanno sempre i requisiti di accuratezza e robustezza previsti e troppo spesso non si arriva nemmeno a mettere i modelli in produzione.

 Pensato per i data scientist e i team di data science

Oracle Cloud Infrastructure Data Science prevede flussi di lavoro automatizzati, che fanno risparmiare tempo e riducono gli errori, con le seguenti funzionalità.

  • Selezione e tuning automatizzati degli algoritmi con AutoML. Questa funzionalità utomatizza il processo di test di più algoritmi e le configurazioni di iperparametri; inoltre, controlla l’accuratezza dei risultati e conferma che siano stati selezionati per l’uso il modello e la configurazione ottimali. Questo fa risparmiare molto tempo e, soprattutto, è stato pensato per consentire a ogni data scientist a ottenere gli stessi risultati dei professionisti più esperti.
  • Selezione di funzionalità predittive automatizzate: per semplificare la progettazione delle funzionalità identificando automaticamente le funzionalità chiave da dataset più ampi.
  • Valutazione dei modelli: per generare un insieme completo di metriche di valutazione e forme di visualizzazione adeguate, per valutare le performance dei modelli su nuovi dati e classificarne l’efficacia nel tempo, così da ottimizzarne il comportamento nell’utilizzo in produzione. La valutazione dei modelli considera non solo le performance pure, ma anche il comportamento di base atteso per quell’algoritmo e un modello di costo, per poter pienamente incorporare nel processo anche i diversi impatti che possono essere causati da falsi positivi e falsi negativi.
  • Spiegazione del modello: Oracle Cloud Infrastructure Data Science offre una spiegazione automatizzata della ponderazione relativa e dell’importanza dei fattori che intervengono nella generazione di una previsione. Ad esempio, per un modello per l’individuazione delle frodi, il data scientist è in grado di spiegare quali sono i fattori che maggiormente possono esporre al rischio di frodi, in modo che l’azienda possa modificare i processi o prendere provvedimenti per proteggersi.

Portare con successo in produzione modelli di machine learning efficaci richiede non solo l’impegno dei singoli, bensì il lavoro di squadra di tanti data scientist che lavorano insieme. Per questo Oracle Cloud Infrastructure Data Science offre potenti funzionalità “di team”.

Con Oracle Cloud Infrastructure Data Science, le aziende possono accelerare l’implementazione dei modelli e ottenere risultati di livello enterprise, e performance elevate – in termini di risultati di busienss – dell’analisi predittiva.

7 servizi completi per dati e machine learning

Oracle Cloud Data Science Platform presenta sette nuovi servizi, per un’esperienza end-to-end completa ed efficace, che accelera i processi e migliora i risultati.

Oracle Cloud Infrastructure Data Science: permette agli utenti di costruire, allenare e gestire nuovi modelli di machine learning su Oracle Cloud usando Python e altri strumenti e librerie open source, compresi TensorFlow, Keras e Jupyter.

Nuove potenti funzionalità di machine learning in Oracle Autonomous Database: gli algoritmi di machine learning sono strettamente integrati in Oracle Autonomous Database, con la novità del supporto a Python e a machine learning automatizzato. Una futura integrazione con Oracle Cloud Infrastructure Data Science permetterà ai data scientist di sviluppare modelli usando sia algoritmi open source sia algoritmi scalabili in-database. La possibilità unica nel suo genere di portare gli algoritmi ai dati contenuti in oracle Database accelera i tempi con cui si ottengono risultati, riducendo le necessità di preparazione e movimentazione dei dati (NdR da tempo si sottolinea infatti il concetto di “data gravity”, ovvero il fatto che i dati sono molto più “pesanti” da spostare, rispetto all’elaborazione e alle applicazioni).

Oracle Cloud Infrastructure Data Catalog: permette agli utenti di scoprire, organizzare, arricchire e tracciare asset dati su Oracle Cloud. Oracle Cloud Infrastructure Data Catalog ha un glossario “business” integrato, che rende semplice curare e individuare dati corretti e affidabili.

Oracle Big Data Service: offre un’implementazione Cloudera Hadoop completa, che si gestisce in modo estremamente più semplice rispetto ad altre offerte per Hadoop, con funzionalità che permettono di rendere altamente disponibile un cluster e implementare azioni di sicurezza con un solo click. Oracle Big Data Service include anche machine learning per Spark, che permette alle aziende di usare il machine learning Spark in memory con un solo prodotto e con minime esigenze di movimentazione dei dati.

Oracle Cloud SQL: permette di effettuare query SQL sui dati in HDFS, Hive, Kafka, NoSQL e Object Storage. Solo Cloud SQL permette a qualsiasi utente, applicazione o tool di analytics che può dialogare con i database Oracle di lavorare in modo trasparente con dati presenti in altri archivi dati – con il beneficio di poterli processare in modalità push-down, scale-out per minimizzarne gli spostamenti.

Oracle Cloud Infrastructure Data Flow: un servizio big data completamente gestito che permette agli utenti di avviare applicazioni Apache Spark senza implementare o gestire infrastruttura. Permette alle aziende di fornire applicazioni big data e AI più velocemente. A differenza di servizi concorrenti Hadoop e Spark, Oracle Cloud Infrastructure Data Flow prevede una singola finestra per tracciare tutti i lavori Spark, così da semplificare l’individuazione dei compiti che richiedono più risorse e aiutare nella risoluzione dei problemi.

Oracle Cloud Infrastructure Virtual Machines for Data Science: ambienti basati su GPU preconfigurati, con IDE in comune, notebook e framework che possono essere messi in azione in meno di 15 minuti, a un costo indicativo di 30 dollari al giorno.

Come riferito in una nota ufficiale da Greg Pavlik, senior vice president product development, Oracle Data and AI Services «Avere modelli di machine learning efficaci è la base per il successo dei progetti di data science, ma il volume e la varietà di dati da gestire può bloccare queste iniziative prima ancora che decollino. Con Oracle Cloud Infrastructure Data Science, stiamo migliorando la produttività dei singoli data scientist automatizzando tutto il loro flusso di lavoro, con in più importanti strumenti che supportano il lavoro di squadra, per fare in modo che i progetti di data science generino valore reale per le imprese».