Akamai Technologies ha raggiunto un importante traguardo nell’evoluzione dell’intelligenza artificiale, presentando la prima implementazione su scala globale del reference design NVIDIA AI Grid. Integrando l’infrastruttura NVIDIA AI nella propria piattaforma e sfruttando un’orchestrazione intelligente dei carichi di lavoro su tutta la rete, Akamai intende portare il settore oltre le “AI factory” isolate, verso una rete unificata e distribuita per l’inferenza AI.
Questa iniziativa rappresenta una tappa fondamentale nell’evoluzione di Akamai Inference Cloud, lanciato alla fine dello scorso anno. In qualità di prima azienda ad aver reso operativa l’AI Grid, Akamai sta implementando migliaia di GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, offrendo una piattaforma che consente alle imprese di eseguire modelli di AI agentica e fisica con la reattività dell’elaborazione locale e la scalabilità del web globale.
” Le AI factory sono state progettate specificamente per i carichi di lavoro di training e per i modelli di frontiera, e un’infrastruttura centralizzata continuerà a garantire la migliore ‘tokenomics’ per questi casi d’uso”, ha commentato Adam Karon, Chief Operating Officer and General Manager, Cloud Technology Group di Akamai. “Tuttavia, video in tempo reale, AI fisica ed esperienze personalizzate altamente simultanee richiedono inferenza nel punto di contatto, non un viaggio di andata e ritorno verso un cluster centralizzato. La nostra orchestrazione intelligente AI Grid consente alle AI factory di scalare l’inferenza verso l’esterno, sfruttando la stessa architettura distribuita che ha rivoluzionato la distribuzione dei contenuti per instradare i carichi di lavoro AI in 4.400 sedi, al giusto costo e nel momento giusto”.
L’architettura della “tokenomics”
Al centro dell’AI Grid si trova un orchestratore intelligente che funge da broker in tempo reale per le richieste AI. Applicando l’esperienza di Akamai nell’ottimizzazione delle prestazioni applicative al campo dell’intelligenza artificiale, questo piano di controllo sensibile al carico di lavoro ottimizza la “tokenomics”, migliorando significativamente il costo per token, il tempo al primo token e il throughput.
Un elemento distintivo di Akamai è la possibilità per i clienti di accedere a modelli ottimizzati o semplificati attraverso la sua vasta rete globale edge, che offre un vantaggio significativo in termini di costi e prestazioni per la “long tail” dei carichi di lavoro AI.
Ad esempio:
● Efficienza dei costi su larga scala: le aziende possono ridurre drasticamente i costi di inferenza abbinando automaticamente i carichi di lavoro al livello di elaborazione più adeguato. L’orchestratore utilizza tecniche come il caching semantico e l’instradamento intelligente per indirizzare le richieste verso risorse dimensionate correttamente, riservando i cicli GPU premium ai carichi più esigenti. Alla base vi è Akamai Cloud, costruito su infrastruttura open source con ampie capacità di traffico in uscita per supportare operazioni AI ad alta intensità di dati.
● Reattività in tempo reale: gli sviluppatori di videogiochi possono offrire interazioni NPC basate su AI in pochi millisecondi, mantenendo l’immersione del giocatore. Gli istituti finanziari possono eseguire rilevamento frodi personalizzato e fornire raccomandazioni di marketing nel breve intervallo tra login e prima schermata. Le emittenti possono transcodificare e doppiare contenuti in tempo reale per un pubblico globale. Tutto ciò è reso possibile dalla rete edge globale di Akamai, con oltre 4.400 sedi dotate di caching integrato, elaborazione serverless edge e connettività ad alte prestazioni, che processa le richieste direttamente nel punto di contatto con l’utente, evitando la latenza dei cloud dipendenti dall’origine.
● IA di livello produttivo al core: i Large Language Model, il post-training continuo e i carichi di lavoro di inferenza multimodale richiedono capacità computazionale sostenuta e ad alta densità, fornita solo da infrastrutture dedicate. I cluster Akamai con migliaia di GPU, basati su NVIDIA RTX PRO 6000 Blackwell Server Edition, garantiscono la potenza necessaria per i carichi più impegnativi, integrando l’edge distribuito con la scalabilità centralizzata.
Il continuum dell’elaborazione: dal core al far-edge Basata su NVIDIA AI Enterprise e sull’architettura NVIDIA Blackwell, oltre che sulle DPU NVIDIA BlueField per networking e sicurezza accelerati via hardware, la piattaforma consente ad Akamai di gestire SLA complessi sia nelle sedi edge sia in quelle centrali:
● The Edge (4,400+ sedi): garantisce tempi di risposta rapidi per AI fisica e agenti autonomi. Sfrutta caching semantico e funzionalità serverless come Akamai Functions (basate su WebAssembly) ed EdgeWorkers per assicurare affinità dei modelli e prestazioni stabili nel punto di contatto con l’utente.
● Akamai Cloud IaaS e GPU Clusters dedicati: l’infrastruttura cloud pubblica di base garantisce portabilità e risparmi sui costi per carichi su larga scala, mentre i pod basati su GPU NVIDIA RTX PRO 6000 Blackwell supportano elaborazioni post-training intensive e inferenza multimodale.
“Le nuove applicazioni native AI richiedono latenza prevedibile ed efficienza dei costi su scala globale”, ha affermato Chris Penrose, Global VP – Business Development – Telco at NVIDIA. “Con l’implementazione operativa di NVIDIA AI Grid, Akamai sta creando il tessuto connettivo per l’AI generativa, agentica e fisica, portando l’intelligenza direttamente ai dati e abilitando la prossima ondata di applicazioni in tempo reale”.
Verso la nuova generazione di AI in tempo reale
Akamai sta già registrando una forte adozione iniziale di Akamai Inference Cloud nei settori ad alta intensità computazionale e sensibili alla latenza:
· Gaming: gli sviluppatori di videogiochi stanno implementando un’inferenza con tempi inferiori ai 50 millisecondi per NPC basati sull’intelligenza artificiale e le interazioni in tempo reale con i giocatori.
· Servizi finanziari: le banche si affidano alla rete per un marketing iper-personalizzato e per fornire consigli rapidi nei momenti critici in cui i clienti effettuano l’accesso.
· Media e video: le emittenti utilizzano la rete distribuita per la transcodifica basata sull’intelligenza artificiale e il doppiaggio in tempo reale.
· Retail e Ecommerce: i rivenditori stanno adottando la rete per applicazioni di intelligenza artificiale in negozio e strumenti di produttività associati presso il punto vendita.
Sulla scia della domanda enterprise, la piattaforma ha ricevuto anche il riconoscimento dei principali fornitori tecnologici, come dimostra un contratto quadriennale da 200 milioni di dollari per un cluster di migliaia di GPU ospitato in un data center progettato appositamente per infrastrutture AI in ambito metro edge.
Dalle architetture centralizzate a quelle distribuite nelle AI factory
La prima generazione di infrastrutture AI era caratterizzata da grandi cluster GPU concentrati in poche sedi, ottimizzati per il training. Tuttavia, con l’inferenza che diventa il carico predominante e con le aziende impegnate nello sviluppo di agenti AI, questo modello centralizzato affronta gli stessi limiti di scalabilità già riscontrati nelle precedenti generazioni di infrastrutture Internet.
Akamai affronta queste sfide con un approccio basato su reti distribuite, orchestrazione intelligente e sistemi progettati per portare contenuti e contesto il più vicino possibile al punto di contatto digitale. Il risultato è un miglioramento dell’esperienza utente e un maggiore ritorno sull’investimento per le aziende. Akamai Inference Cloud applica questa architettura collaudata alle AI factory, abilitando una nuova fase di scalabilità e crescita grazie alla distribuzione della potenza computazionale dal core all’edge.
Per le imprese, ciò significa poter implementare agenti AI consapevoli del contesto e capaci di adattare la propria reattività. Per il settore, rappresenta un modello di riferimento per l’evoluzione delle AI factory da sistemi isolati a servizio distribuito su scala globale.


