• BitMAT
  • BitMATv
  • Top Trade
  • Linea EDP
  • Itis Magazine
  • Industry 5.0
  • Sanità Digitale
  • ReStart in Green
  • Speciale Data Center
  • Contattaci
Close Menu
LineaEDPLineaEDP
    Facebook X (Twitter) Vimeo Instagram LinkedIn RSS
    Trending
    • AI testing: quali limiti?
    • Bayern Monaco: calcio a prova di futuro con RISE with SAP
    • WatchGuard amplia le capacità NDR per MSP e PMI
    • Le 5 regole d’oro della cybersecurity per le PMI per evitare danni fino a 300.000 euro
    • Cloud: un potenziale ancora poco sfruttato
    • SentinelOne porta la sicurezza dell’AI negli ambienti on-premise, regolamentati, sovrani, self-hosted e air-gap
    • Le mine si combattono anche con l’AI
    • Netskope ottiene la AWS Security Competency
    Facebook X (Twitter) Vimeo Instagram LinkedIn RSS
    LineaEDPLineaEDP
    • Cio
    • Cloud
    • Mercato
    • News
    • Tecnologia
    • Case History
    • Report
    • Sicurezza
    • IOT
    LineaEDPLineaEDP
    Sei qui:Home»News»Dati sintetici? Non risolvono il tema della privacy ma sono una soluzione concreta per l’AI aziendale

    Dati sintetici? Non risolvono il tema della privacy ma sono una soluzione concreta per l’AI aziendale

    By Redazione LineaEDP26/01/20267 Mins Read
    Facebook Twitter LinkedIn Reddit Telegram WhatsApp Email

    I dati sintetici sono l’alternativa su cui le aziende possono fare affidamento? L’opinione di Sergio Gago, CTO di Cloudera

    Sergio Gago, CTO, Cloudera-dati-sintetici
    Sergio Gago, CTO, Cloudera

    Con la sempre maggiore integrazione dell’intelligenza artificiale nelle operazioni quotidiane, le aziende alimentano i modelli con una quantità di dati senza precedenti. È ormai comune l’utilizzo di Large Language Models (LLM) nel supporto clienti, nell’analisi, nella produttività degli sviluppatori e nella gestione del sapere aziendale. A ciò si aggiungono gli agenti AI, sistemi in grado di recuperare informazioni, elaborarle e agire attraverso diversi strumenti e flussi di lavoro.

    Tuttavia, i dati più preziosi per migliorare le prestazioni dell’AI sono spesso i più sensibili: trascrizioni, note, cronologie delle transazioni e log operativi possono contenere informazioni di identificazione personale (PII), informazioni regolamentate o su contesti aziendali privati. Anche con le migliori intenzioni a tutela della privacy, è facile che questi campi sensibili finiscano all’interno di materiali di training, set di valutazione o librerie di prompt, specialmente quando i team si muovono rapidamente per costruire e scalare casi d’uso dell’AI.

    È per questo motivo che i dati sintetici hanno guadagnato una rinnovata attenzione. Nella sua forma più semplice, il dato sintetico è un dato generato algoritmicamente e progettato per riflettere i modelli chiave nei dataset reali senza riprodurre record effettivi. In teoria, offre un percorso per accelerare lo sviluppo dell’AI riducendo l’esposizione di informazioni potenzialmente sensibili. Ma i dati sintetici eliminano veramente il rischio, o si limitano a spostarlo?

    Perché il rischio per la privacy è in aumento nell’era degli LLM e degli agenti

    I flussi di lavoro di analisi tradizionali tendono ad avere confini più chiari: i dati vengono curati, aggregati, mascherati e utilizzati per scopi ben definiti. Tuttavia, lo sviluppo guidato dagli LLM sfuma questi confini. Molti input non sono strutturati, un contenuto sensibile si può nascondere all’interno di testo apparentemente innocuo e la valutazione si basa sempre più su set di test ciascuno con un’ampia varietà di dati. Gli agenti espandono ulteriormente la superficie di esposizione al rischio poiché hanno accesso ai sistemi di dati. Molto spesso, inoltre, i dati personali spuntano in maniera imprevedibile, proprio perché le organizzazioni non hanno visibilità sui propri dati.

    L’espansione delle iniziative di AI richiede grandi volumi di dati per fine-tuning supervisionato, test e iterazione. E molti progetti, seppur promettenti, raggiungono una fase di stallo proprio perché i team non possono condividere o utilizzare in sicurezza questi dati per rendere i modelli affidabili.

    I dati sintetici sono l’alternativa su cui le aziende possono fare affidamento?

    Sfortunatamente, i dati sintetici non risolvono ogni criticità. Set di dati sintetici generati male possono comunque far trapelare informazioni sensibili se preservano determinate combinazioni di informazioni o riportano inavvertitamente esempi reali non correttamente anonimizzati. I dati sintetici possono anche fallire nella direzione opposta: se sono troppo “puliti”, troppo generici o troppo uniformi, i modelli addestrati su di essi possono funzionare bene in test controllati ma incontrare difficoltà al momento di un’implementazione reale.

    Un approccio più realistico è quello di usare i dati sintetici come strumento di riduzione del rischio. Se gestiti con disciplina, possono ridurre l’esposizione ai dati personali, consentendo al contempo lo sviluppo e la valutazione dei modelli. Possono anche contribuire a superare un tipico ostacolo pratico: molte organizzazioni non dispongono inizialmente di quantità sufficienti di dati correttamente etichettati e di alta qualità da usare per la fase di training, ben prima che entrino in gioco le considerazioni sulla privacy.

    La moderna generazione di dati sintetici si è evoluta oltre i semplici dataset tabulari di test. Oggi, le aziende possono generare dati di istruzioni sintetiche, dialoghi sintetici, ticket di incidenti sintetici e coppie domanda-risposta sintetiche che rispecchiano la struttura dei flussi di lavoro reali senza fare affidamento su record grezzi. Questo è particolarmente rilevante per le seguenti esigenze di sviluppo dell’AI:

    · Fine-tuning supervisionato e adattamento al dominio: uno degli obiettivi delle aziende spesso è quello di fare in modo che i modelli operino in un contesto rilevante per le loro attività (modelli domain-specific), utilizzando la terminologia dell’organizzazione, le policy, la struttura del catalogo prodotti e la logica di escalation. Il fine-tuning può aiutare, ma gli esempi di training necessari sono spesso sensibili. I dataset sintetici possono fornire coppie prompt-risposta più sicure che riflettono modelli di intenti reali e formati di attività, riducendo al contempo la dipendenza da dati effettivi di clienti o dipendenti.

    · Valutazione dei modelli AI su larga scala: ciò che spesso rappresenta un collo di bottiglia nei programmi AI aziendali è la valutazione. I team devono testare i modelli in molti scenari, come query di routine, casi limite, modalità di errore e argomenti sensibili alla conformità. La generazione di task sintetici aiuta a costruire suite di valutazione ampie e ripetibili più velocemente rispetto ai metodi manuali. Se fatta bene, migliora la fiducia nel comportamento del modello prima del lancio in produzione e riduce la necessità di gestire set di dati sensibili grezzi durante i test.

    · Cura personalizzata dei dati per RAG e agenti: la generazione aumentata da recupero (RAG) e i flussi di lavoro basati su agenti dipendono fortemente dalla qualità delle basi di conoscenza e dei prompt di test. I dati sintetici possono generare query, variazioni e interazioni multi-turno realistiche per stressare il comportamento di

    recupero e l’uso degli strumenti. Ciò riduce la frequenza con cui le conversazioni reali e sensibili devono essere utilizzate come input.

    Cosa rende i dati sintetici “sicuri per la privacy”

    Affinché i dati sintetici mitighino il rischio per la privacy, devono essere trattati come una disciplina di progettazione che richiede un controllo accurato, piuttosto che come una soluzione dell’ultimo minuto. Per avere successo, le organizzazioni devono prima definire se il dataset è destinato al training, alla valutazione, al “red-teaming” o al test del sistema. Gli obiettivi di utilità determinano come i dati devono essere generati. Ci sono altre accortezze da considerare, come:

    · Minimizzare i dati e generalizzare i dati granulari per rimuovere campi sensibili non necessari e outlier dai dati di origine e per ridimensionare l’ambito di azione prima che inizi la generazione.

    · Valutare se i dati sintetici conservano i pattern necessari per le prestazioni del modello, non solo se sembrano realistici.

    · Verificare il rischio di memorizzazione e la presenza di esempi eccessivamente unici o ricostruibili.

    · Documentare cosa è stato generato, il metodo usato e l’uso previsto. Questo è importante per la governance e la tracciabilità, specialmente in ambienti regolamentati.

    I dati sintetici non sono un sostituto universale dei dati reali e non eliminano la necessità di governance. Nella pratica, rendere i dati sintetici utili e sicuri è una sfida operativa. I team necessitano di un ambiente in grado di generare dataset sintetici su larga scala, collegarli a specifiche attività di AI (come il fine-tuning o la valutazione) e applicare controlli di governance in modo che gli output possano essere utilizzati con fiducia in tutta l’organizzazione. Nel complesso, il valore più grande dei dati sintetici è il loro utilizzo nella costruzione di modelli di machine learning tradizionali in ambienti dove i dati sono scarsi o sbilanciati.

    Man mano che le aziende espandono le implementazioni di LLM e agenti, i dati sintetici stanno diventando una via pratica da seguire, riducendo la dipendenza dai dati personali sensibili. Ciò sottolinea la necessità di una piattaforma dati e AI unificata e governata, che consenta ai team di operazionalizzare la generazione e la convalida dei dati sintetici come parte di un ciclo di vita end-to-end dell’AI, in modo che l’innovazione possa progredire più velocemente senza rischiare l’esposizione della privacy.

    A cura di Sergio Gago, CTO di Cloudera

    Cloudera dati sintetici Sergio Gago
    Share. Facebook Twitter LinkedIn Reddit Telegram WhatsApp Email
    Redazione LineaEDP
    • Facebook
    • X (Twitter)

    LineaEDP è parte di BitMAT Edizioni, una casa editrice che ha sede a Milano con copertura a 360° per quanto riguarda la comunicazione rivolta agli specialisti dell'lnformation & Communication Technology.

    Correlati

    AI testing: quali limiti?

    27/03/2026

    CyrusOne avvia i lavori del suo primo data center in Italia

    26/03/2026

    Data Center: mancano 2,4 milioni di lavoratori

    26/03/2026
    Newsletter

    Iscriviti alla Newsletter per ricevere gli aggiornamenti dai portali di BitMAT Edizioni.

    Security Words

    INFRASTRUTTURA APPLICATIVA: PROTEGGIAMOLA

    29/01/2024

    PASSWORD E STRATEGIA

    29/01/2024
    BitMATv – I video di BitMAT
    Nuova Transizione 5.0: cosa cambia?
    Il futuro del lavoro passa dai Personal Systems: l’innovazione HP tra AI e sicurezza
    AI in locale: la workstation secondo Syspack tra potenza e flessibilità
    Tra promesse e realtà: vita (vera) da System Integrator
    Data center nell’era dell’AI: infrastrutture, densità e nuove sfide per l’enterprise
    Defence Tech

    WatchGuard amplia le capacità NDR per MSP e PMI

    27/03/2026

    Le 5 regole d’oro della cybersecurity per le PMI per evitare danni fino a 300.000 euro

    27/03/2026

    SentinelOne porta la sicurezza dell’AI negli ambienti on-premise, regolamentati, sovrani, self-hosted e air-gap

    26/03/2026

    Le mine si combattono anche con l’AI

    26/03/2026
    Report

    Cloud e outsourcing sono la chiave per la crescita delle PMI italiane

    17/03/2026

    Osservatorio Statistico 2025 di TeamSystem: 19 miliardi di email inviate (+12% rispetto al 2024), ma senza strategia l’efficacia diminuisce

    16/03/2026

    HR: l’applicazione concreta dell’AI rimane ancora limitata

    13/03/2026

    Report Cisco Splunk: i CISO e il ruolo centrale della IA Agentica nella resilienza aziendale

    09/03/2026
    Rete BitMAT
    • Bitmat
    • BitMATv
    • Top Trade
    • LineaEdp
    • ItisMagazine
    • Speciale Sicurezza
    • Industry 4.0
    • Sanità Digitale
    • Redazione
    • Contattaci
    NAVIGAZIONE
    • Cio
    • Cloud
    • Mercato
    • News
    • Tecnologia
    • Case History
    • Report
    • Sicurezza
    • IOT
    Chi Siamo
    Chi Siamo

    LineaEDP è una testata giornalistica appartenente al gruppo BitMAT Edizioni, una casa editrice che ha sede a Milano con una copertura a 360° per quanto riguarda la comunicazione online ed offline rivolta agli specialisti dell'lnformation & Communication Technology.

    Facebook X (Twitter) Instagram Vimeo LinkedIn RSS
    • Contattaci
    • Cookies Policy
    • Privacy Policy
    • Redazione
    © 2012 - 2026 BitMAT Edizioni - P.Iva 09091900960 - tutti i diritti riservati - Iscrizione al tribunale di Milano n° 293 del 28-11-2018 - Testata giornalistica iscritta al ROC

    Type above and press Enter to search. Press Esc to cancel.