Red Hat, fornitore di soluzioni open source, ha introdotto Red Hat AI 3, un’importante evoluzione della sua piattaforma AI enterprise. Combinando la più recenti innovazioni di Red Hat AI Inference Server, Red Hat Enterprise Linux AI (RHEL AI) e Red Hat OpenShift AI, la piattaforma contribuisce a semplificare le complessità dell’inferenza AI ad alte prestazioni su larga scala, consentendo alle aziende di trasferire più facilmente i carichi di lavoro dalla fase di test alla produzione e di migliorare la collaborazione sulle applicazioni basate sull’AI.
Le aziende stanno passando sempre più velocemente oltre la fase di sperimentazione con l’AI, incontrando nuove sfide significativi legate a temi quali privacy dei dati, controllo dei costi e gestione di modelli diversi. “The GenAI Divide: State of AI in Business” del progetto NANDA del Massachusetts Institute of Technology delinea un quadro dell’intelligenza artificiale in produzione, rilevando che quasi il 95% delle aziende non riesce a ottenere rendimenti finanziari misurabili nonostante i circa 40 miliardi di dollari investiti.
Red Hat AI 3 si concentra su queste sfide, fornendo un’esperienza più coerente e unificata con l’obiettivo di ottimizzare i propri investimenti nelle tecnologie di elaborazione accelerata. Red Hat AI 3 consente di scalare e distribuire rapidamente i carichi di lavoro AI in ambienti ibridi e multi-vendor, migliorando la collaborazione tra i team sui workload AI di nuova generazione come gli agenti, il tutto sulla stessa piattaforma. Con una base fondata su standard aperti, Red Hat AI 3 soddisfa le esigenze delle organizzazioni nel loro percorso verso l’AI, supportando qualsiasi modello su qualsiasi acceleratore hardware, dai data center al cloud pubblico e dagli ambienti AI sovrani fino all’edge.
Dalla formazione all’azione: il passaggio all’inferenza AI aziendale
Il passaggio delle iniziative di AI in produzione porta le imprese a spostare il proprio focus dalla formazione e messa a punto dei modelli all’inferenza, la fase “operativa” dell’AI aziendale. Basandosi sui progetti vLLM e llm-d portati avanti con successo dalle community open source e sulle capacità di ottimizzazione dei modelli Red Hat, la piattaforma Red Hat AI 3 pone l’accento su un’inferenza scalabile ed economica per i modelli linguistici di grandi dimensioni (LLM) in produzione.
Per aiutare i CIO a ottenere il massimo dalla propria accelerazione hatrdware ad alto valore, Red Hat OpenShift AI 3.0 introduce la disponibilità generale di llm-d, reinventando il modo in cui gli LLM operano in modo nativo su Kubernetes. llm-d abilita infatti un’inferenza distribuita intelligente, sfruttando il valore comprovato dell’orchestrazione di Kubernetes e le prestazioni di vLLM, in combinazione con tecnologie open source chiave come Kubernetes Gateway API Inference Extension, la libreria di trasferimento dati a bassa latenza NVIDIA Dynamo (NIXL) e la libreria di comunicazione DeepEP Mixture of Experts (MoE), consentendo alle aziende di:
· Ridurre i costi e migliorare l’efficienza sfruttando il servizio disaggregato per garantire prestazioni più elevate per ogni dollaro speso.
· Offrire semplicità operativa e massima affidabilità con “Well-lit Paths” prescrittivi che semplificano l’implementazione e l’ottimizzazione di modelli su larga scala su Kubernetes.
· Massimizzate la flessibilità con il supporto multipiattaforma per implementare l’inferenza LLM su diversi acceleratori hardware, tra cui NVIDIA e AMD.
llm-d si basa su vLLM, facendolo evolvere da motore di inferenza a nodo singolo ad alte prestazioni a sistema di servizio distribuito, coerente e scalabile progettato per offrire prestazioni prevedibili, ROI misurabile e una pianificazione efficace dell’infrastruttura. Tutti i miglioramenti affrontano direttamente le sfide legate alla gestione di carichi di lavoro LLM altamente variabili e di modelli di grandi dimensioni come quelli Mixture-of-Experts (MoE).
Una piattaforma unificata per l’AI collaborativa
Red Hat AI 3 offre un’esperienza unificata e flessibile su misura per la creazione di soluzioni di AI generativa collaborative pronte per la produzione. La piattaforma è progettata per fornire un valore tangibile promuovendo la collaborazione e unificando i flussi di lavoro tra i team mettendo a disposizione dei team di engineering dedicati un’unica piattaforma per attuare la loro strategia di AI. Le nuove funzionalità, che hanno come obiettivo quello di fornire l’efficienza necessaria per passare dalla fase di test alla produzione, includono:
· Funzionalità Model as a Service (MaaS) basate sull’inferenza distribuita che consentono ai team IT di agire come se fossero essi stessi fornitori MaaS, servendo modelli comuni a livello centrale e fornendo accesso su richiesta sia agli sviluppatori AI che alle applicazioni AI. Ciò consente una migliore gestione dei costi e supporta casi d’uso che non possono essere eseguiti su servizi AI pubblici per questioni legate a privacy o dati.Un hub AI che consente agli ingegneri della piattaforma di esplorare, implementare e gestire le risorse AI fondamentali. Si tratta di un hub centralizzato che contiene un catalogo curato di modelli, inclusi modelli di gen AI convalidati e ottimizzati, un registro per gestire il ciclo di vita dei modelli e un ambiente di implementazione per configurare e monitorare tutte le risorse AI in esecuzione su OpenShift AI.
· Gen AI Studio, un ambiente pratico in cui gli ingegneri AI possono interagire con i modelli e prototipare rapidamente applicazioni gen AI di nuova generazione. Con la funzione endpoint delle risorse AI, gli ingegneri possono facilmente individuare e utilizzare i modelli disponibili e i server MCP, progettati per semplificare l’interazione dei modelli con strumenti esterni. Il playground integrato fornisce un ambiente interattivo e stateless per sperimentare modelli, testare prompt e ottimizzare parametri per casi d’uso come chat e retrieval-augmented generation (RAG).
· Nuovi modelli convalidati e ottimizzati da Red Hat, inclusi modelli open source popolari come gpt-oss di OpenAI, DeepSeek-R1 e modelli specializzati, come Whisper per la conversione da voce a testo e Voxtral Mini per gli agenti vocali. L’inclusione di questi modelli è volta a semplificare ulteriormente lo sviluppo delle applicazioni.
“Man mano che le aziende passano dalla sperimentazione alla produzione dell’AI, si trovano ad affrontare una nuova ondata di sfide in termini di complessità, costi e controllo”, commenta Joe Fernandes, Vice President e General Manager AI Business Unit, Red Hat. “Con Red Hat AI 3, forniamo una piattaforma open source di livello aziendale che riduce al minimo questi ostacoli. Grazie a nuove funzionalità come l’inferenza distribuita con llm-d e una base per l’AI agentica, consentiamo ai team IT di rendere operativa con maggiore sicurezza l’AI di nuova generazione, secondo le proprie esigenze, su qualsiasi infrastruttura”.
Costruire le basi per gli agenti AI di nuova generazione
Gli agenti AI sono destinati a trasformare il modo in cui le applicazioni vengono sviluppate, e i loro flussi di lavoro complessi e autonomi richiederanno capacità di inferenza molto elevate. Red Hat OpenShift AI 3.0 getta le basi per sistemi di AI agentica scalabili non solo attraverso le sue capacità di inferenza, ma anche con nuove funzionalità e miglioramenti incentrati sulla gestione degli agenti.
Per accelerare la creazione e l’implementazione di questi ultimi, Red Hat ha introdotto un livello API unificato basato su Llama Stack che allinea lo sviluppo agli standard di settore come OpenAI. Inoltre, per promuovere un ecosistema più aperto e interoperabile, Red Hat è tra i primi ad adottare il Model Context Protocol (MCP), un potente standard emergente che semplifica il modo in cui i modelli di AI interagiscono con gli strumenti esterni, una caratteristica fondamentale per i moderni agenti di intelligenza artificiale.
Red Hat AI 3 introduce un nuovo toolkit modulare ed estensibile per la personalizzazione dei modelli, basato sulle funzionalità esistenti di InstructLab. Questo toolkit fornisce librerie Python specializzate che offrono agli sviluppatori maggiore flessibilità e controllo ed è alimentato da progetti open source come Docling per l’elaborazione dei dati, al fine di semplificare l’acquisizione di documenti non strutturati in un formato leggibile dall’AI. Inoltre, il toolkit include anche un framework flessibile che può essere utilizzato per generare dati sintetici e come centro di addestramento per gli LLM. Infine, un hub di valutazione integrato aiuta gli ingegneri AI a monitorare e convalidare i risultati. In questo modo, potranno sfruttare con sicurezza i dati proprietari per ottenere risultati AI più accurati e pertinenti.