• BitMAT
  • BitMATv
  • Top Trade
  • Linea EDP
  • Itis Magazine
  • Industry 5.0
  • Sanità Digitale
  • ReStart in Green
  • Contattaci
Close Menu
LineaEDPLineaEDP
    Facebook X (Twitter) Vimeo Instagram LinkedIn RSS
    Trending
    • Data Center: come si sono evoluti per far fronte allo sviluppo dell’AI?
    • Industria sotto attacco: l’Italia tra i Paesi più colpiti. Serve agire
    • AI e AI Agentica: una ventata innovativa all’interno delle aziende
    • Almawave ottiene certificazione ISO/IEC 42001 per l’AI responsabile
    • AIPSA: Alessandro Manfredini alla Presidenza per il triennio 2025-2028
    • Turkcell, Juniper e ID Quantique realizzano un PoC per reti Quantum-Safe
    • GenAI: aumenta l’adozione, ma anche i rischi
    • Sara Assicurazioni migra sul multicloud con Megaport
    Facebook X (Twitter) Vimeo Instagram LinkedIn RSS
    LineaEDPLineaEDP
    • Cio
    • Cloud
    • Mercato
    • News
    • Tecnologia
    • Case History
    • Report
    • Sicurezza
    • IOT
    LineaEDPLineaEDP
    Sei qui:Home»News»Apache Iceberg nella CDP: piena portabilità sul cloud

    Apache Iceberg nella CDP: piena portabilità sul cloud

    By Redazione LineaEDP13/04/20235 Mins Read
    Facebook Twitter LinkedIn Reddit Telegram WhatsApp Email

    Cloudera e Apache Iceberg offrono sulla Cloudera Data Platform un approccio open agli hybrid data per una piena portabilità sul cloud

    Apache Iceberg
    Foto di Andrea Spallanzani da Pixabay

    Cloudera ha deciso da tempo di integrare Apache Iceberg all’interno della propria Cloudera Data Platform. Apache Iceberg è nato presso Netflix per risolvere i problemi legati alle tabelle estese su scala petabyte; Netflix l’ha poi donato alla comunità open-source nel 2018 come progetto all’interno di Apache Incubator. Cloudera è stata fondamentale per l’espansione dello standard di settore Apache Iceberg, un formato ad alte prestazioni per enormi tabelle analitiche.

    Apache Iceberg: la possibilità di creare un data lakehouse ovunque

    Chi ha familiarità con il tradizionale linguaggio di interrogazione strutturato (SQL) riconoscerà immediatamente il formato delle tabelle Iceberg, che consente a più applicazioni come Hive, Impala, Spark, Trino, Flink e Presto di lavorare contemporaneamente sugli stessi dati. Inoltre, tiene traccia dello stato di evoluzione del set di dati e di altri cambiamenti nel tempo.

    Iceberg è un elemento centrale della Cloudera Data Platform (CDP), e consente agli utenti di costruire un’architettura di data lakehouse aperta per fornire analisi multifunzionali su grandi insiemi di dati sia in streaming che archiviati. Il tutto in un object store cloud-native che funziona sia on-premise che su più cloud.

    Ottimizzando i vari servizi dati CDP, tra cui Cloudera Data Warehousing (CDW), Cloudera Data Engineering (CDE) e Cloudera Machine Learning (CML), gli utenti possono definire e manipolare i dataset con comandi SQL. Gli utenti possono anche costruire pipeline di dati complesse utilizzando funzioni come le “time travel” e distribuire modelli di machine learning (ML) realizzati a partire dai dati contenuti nelle tabelle di Iceberg.

    Grazie al contributo alla comunità open-source, Cloudera ha esteso il supporto a Hive e Impala, realizzando un’architettura di dati per l’analisi multifunzione in grado di gestire carichi di lavoro di ingegneria dei dati su larga scala, BI, query veloci e ML.

    Cloudera ha integrato Apache Iceberg nel layer Shared Data Experience (SDX) di CDP, in modo da rendere più rapidi i vantaggi di produttività e prestazioni del formato aperto delle tabelle. Inoltre, l’integrazione nativa di Iceberg beneficia di varie funzionalità di livello enterprise di SDX, come le funzionalità di data lineage, audit e sicurezza.

    Cloudera assicura che le organizzazioni possono costruire un lakehouse aperto ovunque, su qualsiasi cloud pubblico o on-premise. Inoltre, l’approccio open garantisce la libertà di scegliere lo strumento di analisi preferito senza alcun lock-in.

    Apache Ranger: gestione delle policy per l’intero ambiente ibrido

    Apache Ranger è un framework software che abilita, monitora e gestisce la sicurezza completa dei dati nella piattaforma CDP. È lo strumento per la creazione e la gestione dei criteri di accesso ai dati e ai servizi dello stack CDP. Gli amministratori della sicurezza possono definire politiche di sicurezza a livello di database, tabelle, colonne e file e amministrare le autorizzazioni per gruppi o individui specifici.

    Ranger gestisce l’intero processo di autenticazione degli utenti e i diritti di accesso alle risorse di dati. Ad esempio, un particolare utente potrebbe essere autorizzato a creare una policy e a visualizzare i report, ma non a modificare utenti e gruppi.

    Apache Iceberg è anche Atlas: gestione e governance dei metadati

    Apache Atlas è un sistema di gestione e governance dei metadati utilizzato per aiutare a trovare, organizzare e gestire le risorse di dati. In sostanza, funziona come un vigile urbano all’interno di un’architettura di dati. Creando rappresentazioni di metadati di oggetti e operazioni all’interno del data lake, Atlas consente agli utenti di capire perché i modelli producono risultati specifici, risalendo fino all’origine dei dati di partenza.

    Utilizzando i metadati raccolti, Atlas crea relazioni tra le risorse di dati. Quando Atlas riceve informazioni sulle query, annota l’input e l’output della query e genera una mappa del percorso che traccia l’utilizzo e la trasformazione dei dati nel tempo. Questa visualizzazione delle trasformazioni dei dati consente ai team di governance di identificare rapidamente una fonte di dati e di comprendere l’impatto delle modifiche ai dati e allo schema.

    Apache Ozone: la risposta open source per uno storage on-premise ad alta densità

    La separazione delle risorse di calcolo e di dati nel cloud offre molti vantaggi a un’implementazione di CDP. Presenta più opzioni per l’allocazione delle risorse di calcolo e di archiviazione e consente di spegnere i cluster di server per evitare spese di calcolo non necessarie, lasciando i dati a disposizione di altre applicazioni. Inoltre, i carichi di lavoro ad alta intensità di risorse possono essere isolati su cluster di calcolo dedicati, separati per i diversi carichi di lavoro.

    Affinché questi vantaggi siano coerenti ovunque, anche in sede, CDP Private Cloud, la versione on-premises di CDP, utilizza Apache Ozone per separare lo storage dall’elaborazione. Apache Ozone è un object store on-premises distribuito, scalabile e ad alte prestazioni che supporta lo stesso modello di interazione di AWS S3, Microsoft Azure Data Lake Storage (ADLS) o Google Cloud Storage (GCS).

    Concludendo: da sempre Cloudera punta sull’industrializzazione della gestione dei dati open source e dell’innovazione analitica. In questo contesto, Cloudera intende sfruttare più sistemi open-source per fornire soluzioni ibride multi-cloud e la massima scelta ai clienti, al fine di consentire loro di essere sempre un passo avanti in termini di innovazione e interoperabilità.

     

     

    Apache Iceberg Cloudera Cloudera Data Platform gestione dei dati open source hybrid data portabilità sul cloud
    Share. Facebook Twitter LinkedIn Reddit Telegram WhatsApp Email
    Redazione LineaEDP
    • Facebook
    • X (Twitter)

    LineaEDP è parte di BitMAT Edizioni, una casa editrice che ha sede a Milano con copertura a 360° per quanto riguarda la comunicazione rivolta agli specialisti dell'lnformation & Communication Technology.

    Correlati

    Data Center: come si sono evoluti per far fronte allo sviluppo dell’AI?

    02/07/2025

    AI e AI Agentica: una ventata innovativa all’interno delle aziende

    02/07/2025

    Almawave ottiene certificazione ISO/IEC 42001 per l’AI responsabile

    02/07/2025
    Newsletter

    Iscriviti alla Newsletter per ricevere gli aggiornamenti dai portali di BitMAT Edizioni.

    Security Words

    INFRASTRUTTURA APPLICATIVA: PROTEGGIAMOLA

    29/01/2024

    PASSWORD E STRATEGIA

    29/01/2024
    BitMATv – I video di BitMAT
    ExpertBook P5, il notebook con l’AI integrata
    La tua fabbrica è resiliente?
    Legrand Data Center al Data Center Nation per parlare del data center del futuro!
    Snom: focus su tecnologia e partner
    Cumulabilità Transizione 5.0 e ZES: i vantaggi del Litio
    Defence Tech

    Industria sotto attacco: l’Italia tra i Paesi più colpiti. Serve agire

    02/07/2025

    La sicurezza del cloud rimane tra le priorità principali delle aziende

    01/07/2025

    Spionaggio e cybercrime si sovrappongono. La scoperta di Proofpoint

    01/07/2025

    Imprese italiane e l’evoluzione delle minacce informatiche

    30/06/2025
    Report

    GenAI: aumenta l’adozione, ma anche i rischi

    02/07/2025

    Adozione dell’AI: crescita vertiginosa tra gli impiegati

    01/07/2025

    Intelligenza Artificiale al centro delle operazioni IT

    27/06/2025

    Data Center in Italia in espansione, ma non sottovalutiamo le sfide

    24/06/2025
    Rete BitMAT
    • Bitmat
    • BitMATv
    • Top Trade
    • LineaEdp
    • ItisMagazine
    • Speciale Sicurezza
    • Industry 4.0
    • Sanità Digitale
    • Redazione
    • Contattaci
    NAVIGAZIONE
    • Cio
    • Cloud
    • Mercato
    • News
    • Tecnologia
    • Case History
    • Report
    • Sicurezza
    • IOT
    Chi Siamo
    Chi Siamo

    BitMAT Edizioni è una casa editrice che ha sede a Milano con una copertura a 360° per quanto riguarda la comunicazione online ed offline rivolta agli specialisti dell'lnformation & Communication Technology.

    Facebook X (Twitter) Instagram Vimeo LinkedIn RSS
    • Contattaci
    • Cookies Policy
    • Privacy Policy
    • Redazione
    © 2012 - 2025 BitMAT Edizioni - P.Iva 09091900960 - tutti i diritti riservati - Iscrizione al tribunale di Milano n° 293 del 28-11-2018 - Testata giornalistica iscritta al ROC

    Type above and press Enter to search. Press Esc to cancel.