• BitMAT
  • BitMATv
  • Top Trade
  • Linea EDP
  • Itis Magazine
  • Industry 5.0
  • Sanità Digitale
  • ReStart in Green
  • Contattaci
Close Menu
LineaEDPLineaEDP
    Facebook X (Twitter) Vimeo Instagram LinkedIn RSS
    Trending
    • Okta: progetti ambiziosi per emergere nel mercato italiano
    • L’AI Agentica arriva in Dynatrace
    • Infostealer: Kaspersky e INTERPOL collaborano alla Secure Operation
    • IT4 di Aruba: più connettività con il nuovo PoP di EXA Infrastructure
    • Cybersecurity: rischi e opportunità della business transformation
    • Data Cloud: pro e contro da valutare
    • Da Snowflake tante novità che facilitano workflow di AI e ML
    • Attacchi informatici: cosa è cambiato con l’AI?
    Facebook X (Twitter) Vimeo Instagram LinkedIn RSS
    LineaEDPLineaEDP
    • Cio
    • Cloud
    • Mercato
    • News
    • Tecnologia
    • Case History
    • Report
    • Sicurezza
    • IOT
    LineaEDPLineaEDP
    Sei qui:Home»Rubriche»Sicurezza»Deceptive Delight: il jailbreak che attacca i LLM

    Deceptive Delight: il jailbreak che attacca i LLM

    By Redazione LineaEDP25/10/20244 Mins Read
    Facebook Twitter LinkedIn Reddit Telegram WhatsApp Email

    Il team Unit 42 di Palo Alto Networks ha scoperto Deceptive Delight una tecnica di jailbreak in grado di aggirare le protezioni di sicurezza di otto Large Language Model

    Deceptive-Delight

    L’intelligenza artificiale ha sicuramente trasformato il mondo informatico ma viene anche sfruttata dai cybercriminali per attuare attacchi evoluti e molto pericolosi.
    Unit 42, il threat intelligence team di Palo Alto Networks, ha osservato Deceptive Delight, una tecnica di cybercrime strutturata su più passaggi che coinvolge i modelli linguistici di grandi dimensioni in una conversazione interattiva, aggirando gradualmente le loro barriere di sicurezza e spingendoli a generare contenuti non sicuri o dannosi. Le ricerche condotte hanno evidenziato significative vulnerabilità nei sistemi di AI, rivelando l’urgente necessità di rafforzare le misure di protezione per prevenire l’uso improprio delle tecnologie di GenAI.

    Caratteristiche principali e modalità di azione di Deceptive Delight

    • Dopo aver testato questo metodo semplice, ma efficace, in 8.000 casi su otto modelli diversi, Deceptive Delight ha raggiunto un tasso di successo di attacco del 65% contro modelli di AI open-source e proprietari, superando in modo significativo il 5,8% ottenuto inviando argomenti e contenuti non sicuri direttamente ai modelli, senza utilizzare alcuna tecnica di jailbreak.
    • Inserisce argomenti non sicuri all’interno di narrazioni apparentemente normali, ingannando abilmente i LLM nel produrre contenuti dannosi mentre si concentrano su dettagli apparentemente innocui.
    • Deceptive Delight utilizza un approccio a più turni, in cui il modello viene sollecitato progressivamente attraverso più interazioni, aumentando non solo la rilevanza e la gravità dell’output non sicuro generato ma anche la probabilità di creazione di contenuti pericolosi.

    Deceptive Delight “distrae” i LLM

    Il concetto alla base di Deceptive Delight è semplice. I LLM hanno una “soglia di attenzione” limitata, che li rende vulnerabili alla distrazione quando elaborano testi con una logica complessa. Deceptive Delight sfrutta questa limitazione, inserendo contenuti non sicuri accanto ad argomenti benevoli, inducendo il modello a generare inavvertitamente contenuti dannosi mentre si concentra sulle parti innocue.

    La capacità di attenzione di un LLM si riferisce alla sua abilità nell’elaborare e conservare il contesto su una porzione di testo. Così come gli esseri umani possono conservare solo una certa quantità di informazioni nella loro memoria di lavoro in un dato momento, anche i LLM hanno una capacità limitata di mantenere la consapevolezza del contesto mentre generano risposte. Questa limitazione può portarli a trascurare dettagli critici, soprattutto quando viene presentato un insieme di informazioni, sicure e non.

    Quando i LLM incontrano richieste che mescolano contenuti innocui con materiale potenzialmente pericoloso o nocivo, la loro limitata capacità di attenzione rende difficile valutare in modo coerente l’intero contesto. In passaggi lunghi o complessi, possono dare priorità agli aspetti positivi, non considerando o interpretando erroneamente quelli non sicuri. Ciò rispecchia il modo in cui una persona potrebbe oltrepassare inavvertitamente avvertimenti importanti, ma non vistosi, all’interno di un report dettagliato, se la sua attenzione non è sufficientemente focalizzata.

    Servono strategie di difesa a più livelli per mitigare i rischi legati all’AI

    Il problema del jailbreak Deceptive Delight rappresenta una sfida dalle molteplici sfaccettature, derivante dalla complessità intrinseca dell’elaborazione del linguaggio naturale, dal delicato equilibrio tra usabilità e restrizioni e dalle attuali limitazioni nell’addestramento all’allineamento per i modelli linguistici. Sebbene la ricerca in corso possa produrre miglioramenti incrementali della sicurezza, è improbabile che i LLM restino completamente immuni da attacchi di jailbreak come Deceptive Delight.

    La valutazione di Unit 42 rivela rischi persistenti di jailbreak in questi sistemi, dimostrando che anche modelli avanzati possono essere manipolati per generare contenuti non sicuri. Tuttavia, questi risultati non devono essere considerati come una prova che l’AI sia intrinsecamente insicura o non protetta, ma sottolineano la necessità di strategie di difesa a più livelli per mitigare questi rischi, preservando utilità e flessibilità di questi modelli.

    Le migliori pratiche consolidata, come un robusto prompt engineering e l’uso di filtri per i contenuti, sono fondamentali per ridurre il rischio di jailbreak. Se utilizzate insieme, queste misure possono rafforzare la resilienza dei sistemi di intelligenza artificiale senza compromettere l’usabilità o rallentare l’innovazione.

    cybersecurity intelligenza artificiale (AI) jailbreak LLM palo alto networks Unit 42
    Share. Facebook Twitter LinkedIn Reddit Telegram WhatsApp Email
    Redazione LineaEDP
    • Facebook
    • X (Twitter)

    LineaEDP è parte di BitMAT Edizioni, una casa editrice che ha sede a Milano con copertura a 360° per quanto riguarda la comunicazione rivolta agli specialisti dell'lnformation & Communication Technology.

    Correlati

    Okta: progetti ambiziosi per emergere nel mercato italiano

    12/06/2025

    L’AI Agentica arriva in Dynatrace

    12/06/2025

    Infostealer: Kaspersky e INTERPOL collaborano alla Secure Operation

    12/06/2025
    Newsletter

    Iscriviti alla Newsletter per ricevere gli aggiornamenti dai portali di BitMAT Edizioni.

    Security Words

    INFRASTRUTTURA APPLICATIVA: PROTEGGIAMOLA

    29/01/2024

    PASSWORD E STRATEGIA

    29/01/2024
    BitMATv – I video di BitMAT
    Legrand Data Center al Data Center Nation per parlare del data center del futuro!
    Snom: focus su tecnologia e partner
    Cumulabilità Transizione 5.0 e ZES: i vantaggi del Litio
    Transizione 5.0: vuoi il 45% sui software?
    Stormshield: Zero Trust pilastro della security aziendale
    Defence Tech

    Okta: progetti ambiziosi per emergere nel mercato italiano

    12/06/2025

    Infostealer: Kaspersky e INTERPOL collaborano alla Secure Operation

    12/06/2025

    Cybersecurity: rischi e opportunità della business transformation

    12/06/2025

    Attacchi informatici: cosa è cambiato con l’AI?

    11/06/2025
    Report

    Cybersecurity: le previsioni di Deloitte

    10/06/2025

    Red Hat rivela il futuro della virtualizzazione: innovazione e agilità per le aziende

    06/06/2025

    Sviluppatori entusiasti e ottimisti sull’AI agentica

    04/06/2025

    Intelligenza Artificiale: non tutte le aziende sono pronte

    30/05/2025
    Rete BitMAT
    • Bitmat
    • BitMATv
    • Top Trade
    • LineaEdp
    • ItisMagazine
    • Speciale Sicurezza
    • Industry 4.0
    • Sanità Digitale
    • Redazione
    • Contattaci
    NAVIGAZIONE
    • Cio
    • Cloud
    • Mercato
    • News
    • Tecnologia
    • Case History
    • Report
    • Sicurezza
    • IOT
    Chi Siamo
    Chi Siamo

    BitMAT Edizioni è una casa editrice che ha sede a Milano con una copertura a 360° per quanto riguarda la comunicazione online ed offline rivolta agli specialisti dell'lnformation & Communication Technology.

    Facebook X (Twitter) Instagram Vimeo LinkedIn RSS
    • Contattaci
    • Cookies Policy
    • Privacy Policy
    • Redazione
    © 2012 - 2025 BitMAT Edizioni - P.Iva 09091900960 - tutti i diritti riservati - Iscrizione al tribunale di Milano n° 293 del 28-11-2018 - Testata giornalistica iscritta al ROC

    Type above and press Enter to search. Press Esc to cancel.