L’AI sta rivoluzionando quasi tutti i settori, compreso il proprio. All’inizio del 2025, il modello linguistico cinese DeepSeek R1 ha sostituito per un breve periodo ChatGPT nel dibattito pubblico, scatenando speculazioni su un cambiamento nell’equilibrio di potere dell’AI e contribuendo alla volatilità dei mercati tecnologici. In tutto il mondo, le nazioni hanno dichiarato l’intenzione di diventare superpotenze dell’AI, mentre si prevede che gli hyperscaler spenderanno 1.000 miliardi di dollari in infrastrutture ottimizzate per l’IA entro il 2028.
Anche le imprese stanno investendo in maniera massiccia. In Asia, IDC ha rilevato che le 100 principali aziende della regione prevedono di destinare il 50% dei propri budget IT all’intelligenza artificiale. Tuttavia, non tutti i progetti hanno successo: Gartner riferisce che quasi un terzo delle iniziative di intelligenza artificiale non riesce a generare valore aziendale.
È chiaro che la corsa all’oro dell’AI non può essere ignorata, ma per parteciparvi occorrono investimenti significativi. Quindi, come possono le organizzazioni massimizzare le possibilità di successo dei progetti di AI, e quali considerazioni devono essere fatte per l’infrastruttura sottostanti.
Le esigenze dell’intelligenza artificiale in termini di calcolo e archiviazione
I workload dell’intelligenza artificiale si dividono in due grandi categorie: l’addestramento, quando un modello impara da un insieme di dati, e l’inferenza, quando applica ciò che ha imparato a nuovi dati. Tuttavia, anche prima dell’addestramento si compiono passi critici, come la raccolta, la preparazione e la cura dei dati. La natura di questi dati varia notevolmente, dai dati di archivio ai database transazionali strutturati, spesso con una governance dei dati imprevedibile.
Ciò che rimane costante è che l’AI richiede molte risorse. Il consumo di energia e la voracità dell’elaborazione delle GPU durante l’addestramento sono ben noti. Il checkpoint frequente durante l’addestramento non fa che aumentare le richieste dell’infrastruttura. Questi checkpoint garantiscono la recuperabilità del modello, la capacità di rollback e la conformità, aumentando ulteriormente le esigenze di capacità di archiviazione dei dati e il consumo energetico associato.
La RAG (Retrieval-augmented generation), che integra gli insiemi di dati interni negli LLM (Large Language Model), introduce un’ulteriore complessità di memorizzazione, basandosi su dati vettoriali – insiemi di dati tradotti in vettori ad alta dimensione per consentire confronti di similarità. Questa trasformazione può gonfiare in modo significativo le dimensioni del set di dati, a volte di un fattore 10.
Dopo l’addestramento, l’inferenza richiede generalmente una minore potenza di calcolo, ma comporta comunque un’archiviazione continua dei dati, sia per la registrazione dei risultati che per l’analisi dei dati stessi.
Potenza, scalabilità e compromessi
La crescente impronta energetica dell’AI è un altro fattore critico. Secondo alcune fonti, l’elaborazione dell’intelligenza artificiale richiede una quantità di energia 30 volte superiore rispetto al software tradizionale orientato alle attività, e i requisiti energetici dei data center sono destinati a più che raddoppiare entro il 2030. A livello di rack, l’utilizzo di energia è passato da meno di 10kW a 100kW, o anche di più in alcuni cluster di AI, soprattutto a causa delle richieste delle GPU ad alte prestazioni.
Questo comporta un compromesso: ogni watt utilizzato dall’archiviazione dei dati è un watt non disponibile per le GPU. Uno storage efficiente e ad alte prestazioni è essenziale per fornire i dati alle GPU a un ritmo sostenuto, riducendo al minimo la pressione sui budget energetici già limitati. L’archiviazione dei dati può anche offrire ulteriori guadagni in termini di prestazioni, ad esempio attraverso cache di valori chiave che conservano i dati, le richieste e le conversazioni a cui si accede di frequente per ridurre l’elaborazione ripetitiva da parte delle GPU. Le informazioni in cache possono migliorare la reattività, anche per carichi di lavoro ad alta frequenza come RAG, trading e chatbot. Complessivamente, la cache può accelerare l’inferenza fino a 20 volte, massimizzando l’efficienza delle GPU, riducendo i costi e il consumo energetico e consentendo alle applicazioni business di intelligenza artificiale di essere scalabili e reattive.
Lo storage deve tenere il passo
Il ruolo del data storage nell’infrastruttura di AI è quello di fornire un accesso ad alta velocità e bassa latenza a grandi set di dati. Le scarse prestazioni dello storage possono creare colli di bottiglia nelle GPU, compromettendo il valore del costoso hardware di elaborazione.
I workload dell’intelligenza artificiale richiedono in genere centinaia di terabyte, se non petabyte di capacità, e la possibilità di recuperare rapidamente i dati, sia per l’addestramento di nuovi modelli, sia per l’esecuzione di inferenze, sia per l’integrazione di nuove fonti di dati. Questo vale non solo per le esigenze in tempo reale, ma anche per i dati di archivio che possono essere riutilizzati o rielaborati. La memoria flash QLC ad alta densità si è affermata come soluzione ideale per le esigenze di archiviazione dell’intelligenza artificiale ad alte prestazioni, grazie alla sua combinazione di velocità, capacità, affidabilità ed efficienza energetica, se utilizzata nella giusta piattaforma di archiviazione moderna. L’uso di QLC significa che i clienti possono archiviare i dati su flash storage a costi che si avvicinano a quelli dei dischi rotanti, ma possono raggiungere la velocità essenziale per i workload AI.
Infrastruttura AI-Ready integrata
Alcuni fornitori offrono ora sistemi di storage su misura per i workload AI, comprese soluzioni certificate per funzionare con gli stack di calcolo Nvidia. Queste possono essere fornite in bundle con pipeline RAG ottimizzate e integrate con i microservizi Nvidia, semplificando l’implementazione e migliorando la coerenza delle prestazioni.
Infrastruttura strategica per il successo dell’IA
Far funzionare l’AI su larga scala richiede molto più che potenti GPU. Serve una base di infrastrutture robuste, efficienti e reattive.
L’archiviazione dei dati svolge un ruolo fondamentale all’interno di questa base. Dalle prime fasi di preparazione dei dati, all’addestramento, fino all’inferenza rivolta al cliente, i carichi di lavoro dell’IA dipendono da soluzioni di archiviazione veloci, scalabili e sempre più attente ai consumi. Senza di esse, anche i progetti meglio finanziati rischiano di vacillare sotto il peso della loro stessa complessità.
A cura di Patrick Smith, Field CTO EMEA, Pure Storage


