• BitMAT
  • BitMATv
  • Top Trade
  • Linea EDP
  • Itis Magazine
  • Industry 5.0
  • Sanità Digitale
  • ReStart in Green
  • Speciale Sicurezza
  • Contattaci
Close Menu
LineaEDPLineaEDP
    Facebook X (Twitter) Vimeo Instagram LinkedIn RSS
    Trending
    • TrueScreen e Tinexta Infocert insieme per la Digital Trust e la validazione dei dati digitali
    • Kaspersky SIEM si aggiorna con il rilevamento delle minacce basato su AI e personalizzazione avanzata
    • Oltre la compliance: la visione di Acronis sulla cyber resilience negli ambienti OT
    • Business Continuity: molto più che un obbligo normativo
    • Dati sintetici? Non risolvono il tema della privacy ma sono una soluzione concreta per l’AI aziendale
    • Kyndryl Retail Readiness Report: le leve per il retail nel 2026
    • Protezione ransomware accessibile a tutti: come i modelli di abbonamento a consumo riducono gli ostacoli alla resilienza informatica
    • Horsa accelera nel 2026: acquisite Exemplar e Visioscientiae, rafforzate competenze in CAE, AI e Data Science
    Facebook X (Twitter) Vimeo Instagram LinkedIn RSS
    LineaEDPLineaEDP
    • Cio
    • Cloud
    • Mercato
    • News
    • Tecnologia
    • Case History
    • Report
    • Sicurezza
    • IOT
    LineaEDPLineaEDP
    Sei qui:Home»News»Dati sintetici? Non risolvono il tema della privacy ma sono una soluzione concreta per l’AI aziendale

    Dati sintetici? Non risolvono il tema della privacy ma sono una soluzione concreta per l’AI aziendale

    By Redazione LineaEDP26/01/20267 Mins Read
    Facebook Twitter LinkedIn Reddit Telegram WhatsApp Email

    I dati sintetici sono l’alternativa su cui le aziende possono fare affidamento? L’opinione di Sergio Gago, CTO di Cloudera

    Sergio Gago, CTO, Cloudera-dati-sintetici
    Sergio Gago, CTO, Cloudera

    Con la sempre maggiore integrazione dell’intelligenza artificiale nelle operazioni quotidiane, le aziende alimentano i modelli con una quantità di dati senza precedenti. È ormai comune l’utilizzo di Large Language Models (LLM) nel supporto clienti, nell’analisi, nella produttività degli sviluppatori e nella gestione del sapere aziendale. A ciò si aggiungono gli agenti AI, sistemi in grado di recuperare informazioni, elaborarle e agire attraverso diversi strumenti e flussi di lavoro.

    Tuttavia, i dati più preziosi per migliorare le prestazioni dell’AI sono spesso i più sensibili: trascrizioni, note, cronologie delle transazioni e log operativi possono contenere informazioni di identificazione personale (PII), informazioni regolamentate o su contesti aziendali privati. Anche con le migliori intenzioni a tutela della privacy, è facile che questi campi sensibili finiscano all’interno di materiali di training, set di valutazione o librerie di prompt, specialmente quando i team si muovono rapidamente per costruire e scalare casi d’uso dell’AI.

    È per questo motivo che i dati sintetici hanno guadagnato una rinnovata attenzione. Nella sua forma più semplice, il dato sintetico è un dato generato algoritmicamente e progettato per riflettere i modelli chiave nei dataset reali senza riprodurre record effettivi. In teoria, offre un percorso per accelerare lo sviluppo dell’AI riducendo l’esposizione di informazioni potenzialmente sensibili. Ma i dati sintetici eliminano veramente il rischio, o si limitano a spostarlo?

    Perché il rischio per la privacy è in aumento nell’era degli LLM e degli agenti

    I flussi di lavoro di analisi tradizionali tendono ad avere confini più chiari: i dati vengono curati, aggregati, mascherati e utilizzati per scopi ben definiti. Tuttavia, lo sviluppo guidato dagli LLM sfuma questi confini. Molti input non sono strutturati, un contenuto sensibile si può nascondere all’interno di testo apparentemente innocuo e la valutazione si basa sempre più su set di test ciascuno con un’ampia varietà di dati. Gli agenti espandono ulteriormente la superficie di esposizione al rischio poiché hanno accesso ai sistemi di dati. Molto spesso, inoltre, i dati personali spuntano in maniera imprevedibile, proprio perché le organizzazioni non hanno visibilità sui propri dati.

    L’espansione delle iniziative di AI richiede grandi volumi di dati per fine-tuning supervisionato, test e iterazione. E molti progetti, seppur promettenti, raggiungono una fase di stallo proprio perché i team non possono condividere o utilizzare in sicurezza questi dati per rendere i modelli affidabili.

    I dati sintetici sono l’alternativa su cui le aziende possono fare affidamento?

    Sfortunatamente, i dati sintetici non risolvono ogni criticità. Set di dati sintetici generati male possono comunque far trapelare informazioni sensibili se preservano determinate combinazioni di informazioni o riportano inavvertitamente esempi reali non correttamente anonimizzati. I dati sintetici possono anche fallire nella direzione opposta: se sono troppo “puliti”, troppo generici o troppo uniformi, i modelli addestrati su di essi possono funzionare bene in test controllati ma incontrare difficoltà al momento di un’implementazione reale.

    Un approccio più realistico è quello di usare i dati sintetici come strumento di riduzione del rischio. Se gestiti con disciplina, possono ridurre l’esposizione ai dati personali, consentendo al contempo lo sviluppo e la valutazione dei modelli. Possono anche contribuire a superare un tipico ostacolo pratico: molte organizzazioni non dispongono inizialmente di quantità sufficienti di dati correttamente etichettati e di alta qualità da usare per la fase di training, ben prima che entrino in gioco le considerazioni sulla privacy.

    La moderna generazione di dati sintetici si è evoluta oltre i semplici dataset tabulari di test. Oggi, le aziende possono generare dati di istruzioni sintetiche, dialoghi sintetici, ticket di incidenti sintetici e coppie domanda-risposta sintetiche che rispecchiano la struttura dei flussi di lavoro reali senza fare affidamento su record grezzi. Questo è particolarmente rilevante per le seguenti esigenze di sviluppo dell’AI:

    · Fine-tuning supervisionato e adattamento al dominio: uno degli obiettivi delle aziende spesso è quello di fare in modo che i modelli operino in un contesto rilevante per le loro attività (modelli domain-specific), utilizzando la terminologia dell’organizzazione, le policy, la struttura del catalogo prodotti e la logica di escalation. Il fine-tuning può aiutare, ma gli esempi di training necessari sono spesso sensibili. I dataset sintetici possono fornire coppie prompt-risposta più sicure che riflettono modelli di intenti reali e formati di attività, riducendo al contempo la dipendenza da dati effettivi di clienti o dipendenti.

    · Valutazione dei modelli AI su larga scala: ciò che spesso rappresenta un collo di bottiglia nei programmi AI aziendali è la valutazione. I team devono testare i modelli in molti scenari, come query di routine, casi limite, modalità di errore e argomenti sensibili alla conformità. La generazione di task sintetici aiuta a costruire suite di valutazione ampie e ripetibili più velocemente rispetto ai metodi manuali. Se fatta bene, migliora la fiducia nel comportamento del modello prima del lancio in produzione e riduce la necessità di gestire set di dati sensibili grezzi durante i test.

    · Cura personalizzata dei dati per RAG e agenti: la generazione aumentata da recupero (RAG) e i flussi di lavoro basati su agenti dipendono fortemente dalla qualità delle basi di conoscenza e dei prompt di test. I dati sintetici possono generare query, variazioni e interazioni multi-turno realistiche per stressare il comportamento di

    recupero e l’uso degli strumenti. Ciò riduce la frequenza con cui le conversazioni reali e sensibili devono essere utilizzate come input.

    Cosa rende i dati sintetici “sicuri per la privacy”

    Affinché i dati sintetici mitighino il rischio per la privacy, devono essere trattati come una disciplina di progettazione che richiede un controllo accurato, piuttosto che come una soluzione dell’ultimo minuto. Per avere successo, le organizzazioni devono prima definire se il dataset è destinato al training, alla valutazione, al “red-teaming” o al test del sistema. Gli obiettivi di utilità determinano come i dati devono essere generati. Ci sono altre accortezze da considerare, come:

    · Minimizzare i dati e generalizzare i dati granulari per rimuovere campi sensibili non necessari e outlier dai dati di origine e per ridimensionare l’ambito di azione prima che inizi la generazione.

    · Valutare se i dati sintetici conservano i pattern necessari per le prestazioni del modello, non solo se sembrano realistici.

    · Verificare il rischio di memorizzazione e la presenza di esempi eccessivamente unici o ricostruibili.

    · Documentare cosa è stato generato, il metodo usato e l’uso previsto. Questo è importante per la governance e la tracciabilità, specialmente in ambienti regolamentati.

    I dati sintetici non sono un sostituto universale dei dati reali e non eliminano la necessità di governance. Nella pratica, rendere i dati sintetici utili e sicuri è una sfida operativa. I team necessitano di un ambiente in grado di generare dataset sintetici su larga scala, collegarli a specifiche attività di AI (come il fine-tuning o la valutazione) e applicare controlli di governance in modo che gli output possano essere utilizzati con fiducia in tutta l’organizzazione. Nel complesso, il valore più grande dei dati sintetici è il loro utilizzo nella costruzione di modelli di machine learning tradizionali in ambienti dove i dati sono scarsi o sbilanciati.

    Man mano che le aziende espandono le implementazioni di LLM e agenti, i dati sintetici stanno diventando una via pratica da seguire, riducendo la dipendenza dai dati personali sensibili. Ciò sottolinea la necessità di una piattaforma dati e AI unificata e governata, che consenta ai team di operazionalizzare la generazione e la convalida dei dati sintetici come parte di un ciclo di vita end-to-end dell’AI, in modo che l’innovazione possa progredire più velocemente senza rischiare l’esposizione della privacy.

    A cura di Sergio Gago, CTO di Cloudera

    Cloudera dati sintetici Sergio Gago
    Share. Facebook Twitter LinkedIn Reddit Telegram WhatsApp Email
    Redazione LineaEDP
    • Facebook
    • X (Twitter)

    LineaEDP è parte di BitMAT Edizioni, una casa editrice che ha sede a Milano con copertura a 360° per quanto riguarda la comunicazione rivolta agli specialisti dell'lnformation & Communication Technology.

    Correlati

    TrueScreen e Tinexta Infocert insieme per la Digital Trust e la validazione dei dati digitali

    26/01/2026

    Business Continuity: molto più che un obbligo normativo

    26/01/2026

    Osservabilità: sei previsioni per il 2026

    23/01/2026
    Newsletter

    Iscriviti alla Newsletter per ricevere gli aggiornamenti dai portali di BitMAT Edizioni.

    Security Words

    INFRASTRUTTURA APPLICATIVA: PROTEGGIAMOLA

    29/01/2024

    PASSWORD E STRATEGIA

    29/01/2024
    BitMATv – I video di BitMAT
    2VS1 incontra GCI: il Presales tra strategia, tecnologia e metodo
    Snom amplia l’ecosistema delle comunicazioni professionali
    Cybersecurity tra presente e futuro: minacce, trend e strategie per il 2026
    RS Italia, sostenibilità come leva strategica per la filiera
    Dal Forum Fiscale di Wolters Kluwer Italia le voci e le idee che stanno cambiando la professione
    Defence Tech

    Kaspersky SIEM si aggiorna con il rilevamento delle minacce basato su AI e personalizzazione avanzata

    26/01/2026

    Oltre la compliance: la visione di Acronis sulla cyber resilience negli ambienti OT

    26/01/2026

    Protezione ransomware accessibile a tutti: come i modelli di abbonamento a consumo riducono gli ostacoli alla resilienza informatica

    23/01/2026

    Microsoft Teams: attacchi phishing su larga scala

    21/01/2026
    Report

    Kyndryl Retail Readiness Report: le leve per il retail nel 2026

    23/01/2026

    BCS: i data center IA posizionano l’Italia tra i primi mercati d’Europa, ma nodi energetici e insolvenze edili rischiano di frenare la corsa

    20/01/2026

    Data Center: come cresce l’ecosistema. I dati dell’Osservatorio POLIMI

    16/01/2026

    AI Diffusion Report: Microsoft presenta la nuova edizione

    13/01/2026
    Rete BitMAT
    • Bitmat
    • BitMATv
    • Top Trade
    • LineaEdp
    • ItisMagazine
    • Speciale Sicurezza
    • Industry 4.0
    • Sanità Digitale
    • Redazione
    • Contattaci
    NAVIGAZIONE
    • Cio
    • Cloud
    • Mercato
    • News
    • Tecnologia
    • Case History
    • Report
    • Sicurezza
    • IOT
    Chi Siamo
    Chi Siamo

    LineaEDP è una testata giornalistica appartenente al gruppo BitMAT Edizioni, una casa editrice che ha sede a Milano con una copertura a 360° per quanto riguarda la comunicazione online ed offline rivolta agli specialisti dell'lnformation & Communication Technology.

    Facebook X (Twitter) Instagram Vimeo LinkedIn RSS
    • Contattaci
    • Cookies Policy
    • Privacy Policy
    • Redazione
    © 2012 - 2026 BitMAT Edizioni - P.Iva 09091900960 - tutti i diritti riservati - Iscrizione al tribunale di Milano n° 293 del 28-11-2018 - Testata giornalistica iscritta al ROC

    Type above and press Enter to search. Press Esc to cancel.