Talend supporta Delta Lake Open Source Project

Si rafforza la collaborazione con Databrick per supportare le aziende nell’elaborazione scalabile dei dati in cloud

Talend, specialista in soluzioni di integrazione e integrità dei dati in cloud, ha annunciato il supporto della nuova soluzione Delta Lake, un nuovo progetto storage open source di Databrick. Talend Cloud, una piattaforma di integrazione as-a-service (iPaaS) unificata, completa e altamente scalabile, che integrerà in modo nativo i dati provenienti da qualsiasi fonte verso e da Delta Lake, fornendo un ambiente unificato affidabile per i dati batch e streaming in modo scalabile e abilitare così un’ampia gamma di casi d’uso analitici e operativi.

Cosa vuol dire in concreto

Talend Cloud integrerà i dati da e verso un progetto Delta Lake, sfruttando la sua conformità ACID, gli spostamenti temporali (versioning dei dati) e l’elaborazione unificata in batch e in streaming.

Oltre al collegamento a un’ampia gamma di fonti di dati, incluse le più diffuse app SaaS e piattaforme cloud, Talend consentirà agli utenti di Delta Lake di godere di complete funzionalità di data quality e governance dei dati per supportare machine learning e analisi avanzate, sfruttando in modalità nativa la potente tecnologia Apache Spark alla base di Delta Lake.

Il supporto esteso di Talend per i connettori Spark fornirà numerosi benefici ai progetti Delta Lake, tra cui:

• Una migliore coerenza dei dati sfruttando le funzionalità native di data quality di Talend con le transazioni ACID Delta Lake

• Facile ripristino dello stato precedente e rielaborazione grazie all’integrazione di Talend Delta Lake Time Travel e le funzionalità di controllo delle versioni dei dati

• Elaborazione di grandi volumi in scala grazie al supporto di Talend dell’architettura scale-out di Delta Lake.

Delta Lake porta affidabilità ai data lake gestendo le transazioni di dati di streaming e batch e per diverse istanze in lettura e scrittura simultanee.

Un progetto Delta Lake può facilmente sfruttare qualsiasi data lake esistente, permettendo alle aziende di ottenere dati affidabili con modifiche minime alle loro architetture dati.

Come risultato, gli sviluppatori possono avere centinaia di applicazioni che caricano e interrogano i dati in scala in modo affidabile.