• BitMAT
  • BitMATv
  • Top Trade
  • Linea EDP
  • Itis Magazine
  • Industry 5.0
  • Sanità Digitale
  • ReStart in Green
  • Contattaci
Close Menu
LineaEDPLineaEDP
    Facebook X (Twitter) Vimeo Instagram LinkedIn RSS
    Trending
    • Attacchi informatici: Russia, UE e Asia nel mirino
    • Dynatrace e NVIDIA a supporto delle implementazioni di AI Factory
    • Sicurezza: AI sempre più sfidante
    • Oracle EU Sovereign Cloud conquista le organizzazioni tedesche
    • Progettare il futuro con Red Hat Enterprise Linux 10
    • AI e Partnership pilastri della strategia di SAP
    • Elisabetta Franchi: A Convention of Fashion and Imagination in Mold
    • Vertiv: soluzioni di alimentazione a 800 VDC pronte nel 2026
    Facebook X (Twitter) Vimeo Instagram LinkedIn RSS
    LineaEDPLineaEDP
    • Cio
    • Cloud
    • Mercato
    • News
    • Tecnologia
    • Case History
    • Report
    • Sicurezza
    • IOT
    LineaEDPLineaEDP
    Sei qui:Home»Rubriche»Sicurezza»Deceptive Delight: il jailbreak che attacca i LLM

    Deceptive Delight: il jailbreak che attacca i LLM

    By Redazione LineaEDP25/10/20244 Mins Read
    Facebook Twitter LinkedIn Reddit Telegram WhatsApp Email

    Il team Unit 42 di Palo Alto Networks ha scoperto Deceptive Delight una tecnica di jailbreak in grado di aggirare le protezioni di sicurezza di otto Large Language Model

    Deceptive-Delight

    L’intelligenza artificiale ha sicuramente trasformato il mondo informatico ma viene anche sfruttata dai cybercriminali per attuare attacchi evoluti e molto pericolosi.
    Unit 42, il threat intelligence team di Palo Alto Networks, ha osservato Deceptive Delight, una tecnica di cybercrime strutturata su più passaggi che coinvolge i modelli linguistici di grandi dimensioni in una conversazione interattiva, aggirando gradualmente le loro barriere di sicurezza e spingendoli a generare contenuti non sicuri o dannosi. Le ricerche condotte hanno evidenziato significative vulnerabilità nei sistemi di AI, rivelando l’urgente necessità di rafforzare le misure di protezione per prevenire l’uso improprio delle tecnologie di GenAI.

    Caratteristiche principali e modalità di azione di Deceptive Delight

    • Dopo aver testato questo metodo semplice, ma efficace, in 8.000 casi su otto modelli diversi, Deceptive Delight ha raggiunto un tasso di successo di attacco del 65% contro modelli di AI open-source e proprietari, superando in modo significativo il 5,8% ottenuto inviando argomenti e contenuti non sicuri direttamente ai modelli, senza utilizzare alcuna tecnica di jailbreak.
    • Inserisce argomenti non sicuri all’interno di narrazioni apparentemente normali, ingannando abilmente i LLM nel produrre contenuti dannosi mentre si concentrano su dettagli apparentemente innocui.
    • Deceptive Delight utilizza un approccio a più turni, in cui il modello viene sollecitato progressivamente attraverso più interazioni, aumentando non solo la rilevanza e la gravità dell’output non sicuro generato ma anche la probabilità di creazione di contenuti pericolosi.

    Deceptive Delight “distrae” i LLM

    Il concetto alla base di Deceptive Delight è semplice. I LLM hanno una “soglia di attenzione” limitata, che li rende vulnerabili alla distrazione quando elaborano testi con una logica complessa. Deceptive Delight sfrutta questa limitazione, inserendo contenuti non sicuri accanto ad argomenti benevoli, inducendo il modello a generare inavvertitamente contenuti dannosi mentre si concentra sulle parti innocue.

    La capacità di attenzione di un LLM si riferisce alla sua abilità nell’elaborare e conservare il contesto su una porzione di testo. Così come gli esseri umani possono conservare solo una certa quantità di informazioni nella loro memoria di lavoro in un dato momento, anche i LLM hanno una capacità limitata di mantenere la consapevolezza del contesto mentre generano risposte. Questa limitazione può portarli a trascurare dettagli critici, soprattutto quando viene presentato un insieme di informazioni, sicure e non.

    Quando i LLM incontrano richieste che mescolano contenuti innocui con materiale potenzialmente pericoloso o nocivo, la loro limitata capacità di attenzione rende difficile valutare in modo coerente l’intero contesto. In passaggi lunghi o complessi, possono dare priorità agli aspetti positivi, non considerando o interpretando erroneamente quelli non sicuri. Ciò rispecchia il modo in cui una persona potrebbe oltrepassare inavvertitamente avvertimenti importanti, ma non vistosi, all’interno di un report dettagliato, se la sua attenzione non è sufficientemente focalizzata.

    Servono strategie di difesa a più livelli per mitigare i rischi legati all’AI

    Il problema del jailbreak Deceptive Delight rappresenta una sfida dalle molteplici sfaccettature, derivante dalla complessità intrinseca dell’elaborazione del linguaggio naturale, dal delicato equilibrio tra usabilità e restrizioni e dalle attuali limitazioni nell’addestramento all’allineamento per i modelli linguistici. Sebbene la ricerca in corso possa produrre miglioramenti incrementali della sicurezza, è improbabile che i LLM restino completamente immuni da attacchi di jailbreak come Deceptive Delight.

    La valutazione di Unit 42 rivela rischi persistenti di jailbreak in questi sistemi, dimostrando che anche modelli avanzati possono essere manipolati per generare contenuti non sicuri. Tuttavia, questi risultati non devono essere considerati come una prova che l’AI sia intrinsecamente insicura o non protetta, ma sottolineano la necessità di strategie di difesa a più livelli per mitigare questi rischi, preservando utilità e flessibilità di questi modelli.

    Le migliori pratiche consolidata, come un robusto prompt engineering e l’uso di filtri per i contenuti, sono fondamentali per ridurre il rischio di jailbreak. Se utilizzate insieme, queste misure possono rafforzare la resilienza dei sistemi di intelligenza artificiale senza compromettere l’usabilità o rallentare l’innovazione.

    cybersecurity intelligenza artificiale (AI) jailbreak LLM palo alto networks Unit 42
    Share. Facebook Twitter LinkedIn Reddit Telegram WhatsApp Email
    Redazione LineaEDP
    • Facebook
    • X (Twitter)

    LineaEDP è parte di BitMAT Edizioni, una casa editrice che ha sede a Milano con copertura a 360° per quanto riguarda la comunicazione rivolta agli specialisti dell'lnformation & Communication Technology.

    Correlati

    Attacchi informatici: Russia, UE e Asia nel mirino

    21/05/2025

    Dynatrace e NVIDIA a supporto delle implementazioni di AI Factory

    21/05/2025

    Sicurezza: AI sempre più sfidante

    21/05/2025
    Newsletter

    Iscriviti alla Newsletter per ricevere gli aggiornamenti dai portali di BitMAT Edizioni.

    Security Words

    INFRASTRUTTURA APPLICATIVA: PROTEGGIAMOLA

    29/01/2024

    PASSWORD E STRATEGIA

    29/01/2024
    BitMATv – I video di BitMAT
    Transizione 5.0: vuoi il 45% sui software?
    Stormshield: Zero Trust pilastro della security aziendale
    RENTRI: regole pratiche per uscirne vivi
    Vertiv: come evolve il mondo dei data center
    2VS1 incontra GCI: focus sulle competenze
    Defence Tech

    Attacchi informatici: Russia, UE e Asia nel mirino

    21/05/2025

    Sicurezza: AI sempre più sfidante

    21/05/2025

    Computer ICS sempre sotto minaccia cyber: l’analisi di Kaspersky

    20/05/2025

    TA406: cybercrime contro le entità governative ucraine

    19/05/2025
    Report

    Aziende italiane e Intelligenza Artificiale: a che punto siamo?

    12/05/2025

    L’AI irrompe nel manufacturing

    02/05/2025

    L’AI è il futuro, ma senza dati rimane solo una promessa

    02/05/2025

    IBM X-Force Threat Index 2025: vecchi e nuovi trend delle minacce cyber

    18/04/2025
    Rete BitMAT
    • Bitmat
    • BitMATv
    • Top Trade
    • LineaEdp
    • ItisMagazine
    • Speciale Sicurezza
    • Industry 4.0
    • Sanità Digitale
    • Redazione
    • Contattaci
    NAVIGAZIONE
    • Cio
    • Cloud
    • Mercato
    • News
    • Tecnologia
    • Case History
    • Report
    • Sicurezza
    • IOT
    Chi Siamo
    Chi Siamo

    BitMAT Edizioni è una casa editrice che ha sede a Milano con una copertura a 360° per quanto riguarda la comunicazione online ed offline rivolta agli specialisti dell'lnformation & Communication Technology.

    Facebook X (Twitter) Instagram Vimeo LinkedIn RSS
    • Contattaci
    • Cookies Policy
    • Privacy Policy
    • Redazione
    © 2012 - 2025 BitMAT Edizioni - P.Iva 09091900960 - tutti i diritti riservati - Iscrizione al tribunale di Milano n° 293 del 28-11-2018 - Testata giornalistica iscritta al ROC

    Type above and press Enter to search. Press Esc to cancel.