L’intelligenza artificiale ha ridefinito il quadro termico ed elettrico dell’infrastruttura dei data center. Tuttavia, quando liquidi ed energia elettrica si mescolano, la sicurezza non è certa, ma va progettata.
Lo scenario
L’accelerazione dell’AI ha surclassato la teoria di Moore, oltrepassando i vantaggi incrementali per offrire miglioramenti esponenziali in termini di potenza, calore e densità, il tutto con un ingombro ridotto.
Le densità dei rack oggi superano i 140 kilowatt (kW) e i moderni processori AI superano i 1000 watt (W) di potenza nominale termica (TDP). Queste esigenze stanno imponendo un cambiamento nella progettazione dei sistemi di calcolo ad alte prestazioni (HPC), in cui il raffreddamento a liquido e l’alimentazione a media tensione devono condividere lo stesso rack.
L’integrazione di raffreddamento a liquido e alimentazione nel rack non è la sfida. Lo è invece l’integrazione sicura su più rack e siti. Con l’aumentare della densità dell’AI, aumentano i rischi e così anche le possibili conseguenze di un guasto. L’affidabilità su larga scala dipende dalla capacità dei team di gestire quattro aree critiche: sicurezza dell’alimentazione, qualità dei fluidi, prevenzione delle perdite e capacità operativa.
Maggiore calore richiede una migliore gestione dei fluidi
La qualità dei fluidi nei sistemi di raffreddamento ad alta densità è una necessità costante, non un controllo occasionale. Anche tracce di contaminanti come particelle o residui microbici possono ridurre il trasferimento termico o la capacità e danneggiare le piastre di raffreddamento nel tempo. Le bolle d’aria nel circuito di raffreddamento creano un effetto schiumogeno, interrompendo la circolazione del refrigerante, riducendo l’efficienza e sollecitando le relative pompe.
Si tratta di problemi reali e costosi che possono crescere silenziosamente e colpire pesantemente senza una gestione proattiva. L’affidabilità dipenderà dall’installazione e dalla precisione quotidiana dell’intero circuito di raffreddamento.
Non si tratta più solo di aggiungere un sistema di raffreddamento a liquido vicino ai rack. Si raffreddano i chip attivi. Una piccola perdita, un dispositivo di fissaggio allentato o il minimo errore di calcolo dell’espansione termica possono portare al completo arresto dei rack, alla perdita di elaborazione e a costosi tempi di inattività. A queste densità, piccoli guasti comportano conseguenze enormi.
Una maggiore complessità richiede nuove competenze
I team dei data center di tipo convenzionale sono altamente qualificati, ma l’aumento dell’uso del raffreddamento a liquido nei data center HPC ha introdotto attività di manutenzione che richiedono competenze non comunemente presenti nelle implementazioni IT tradizionali. Attività quali la gestione della temperatura, il campionamento dei fluidi, il rilevamento delle perdite e la sostituzione del refrigerante richiedono una formazione e processi specializzati.
La curva di apprendimento è significativa: i team devono adattarsi alle nuove applicazioni su larga scala, mantenendo al contempo l’affidabilità e l’operatività. Colmare questo divario di preparazione è essenziale per scalare in modo sicuro il raffreddamento a liquido negli ambienti live.
La messa in servizio: la prima linea di sicurezza
Ogni implementazione sicura inizia prima dell’accensione. Durante la costruzione, il personale addetto alla manutenzione dei sistemi di raffreddamento a liquido segue una regola ferrea: i sistemi meccanici devono essere sottoposti a una valutazione approfondita prima dell’accensione.
La messa in servizio spinge i modelli di raffreddamento ad alta densità al limite in condizioni controllate, rivelando eventuali difetti prima che vengano sottoposti a impieghi reali. I sistemi vengono fatti funzionare in condizioni di guasto, sottoposti a stress test in tandem e si prevede che rivelino eventuali difetti, perché sono proprio quei momenti che ci dicono se il progetto può essere migliorato e testato nuovamente.
Ogni singola valvola viene sottoposta a test di pressione, ogni giunto viene ispezionato e i circuiti di raffreddamento vengono lavati fino a quando il fluido non soddisfa le specifiche di purezza richieste. Quando qualcosa non funziona, non viene semplicemente registrato e lasciato così com’è. Viene riparato e approvato. I team effettuano regolazioni in tempo reale, riparano i punti deboli e ripetono i test fino a quando il sistema non funziona come previsto sotto stress operativo completo.
I team di assistenza iniziano i test elettrici solo dopo aver valutato la completa integrità dei sistemi dei liquidi. Questa rigorosa sequenza, in cui la messa in servizio meccanica precede quella elettrica, impedisce la formazione di sovrapposizioni catastrofiche, come il test di un sistema a 700 volt (V) mentre una perdita nascosta sfugge al rilevamento. Se i team mettono in servizio l’alimentazione e il raffreddamento in parallelo, il margine di errore tende ad essere relativamente ridotto.
Maturità operativa: dalla progettazione alla gestione del ciclo di vita
Una volta che i sistemi di alimentazione e raffreddamento a liquido sono operativi, l’affidabilità non dipende solo dall’installazione, ma anche dalla capacità degli ingegneri interni del cliente (CE) di progettare sistemi di raffreddamento ad alta densità in grado di rispondere alle pressioni.
Il primo passo è costituito dai dispositivi di sicurezza integrati. Ogni interfaccia tra i sistemi a liquido e alimentazione è progettata con una protezione a più livelli: zone di separazione, vaschette di raccolta delle perdite monitorate e protocolli di spegnimento automatico. Non si tratta di soluzioni accessorie. Definiscono il modo in cui il sistema mitiga ed elimina i rischi intrinseci.
Gli ingegneri collaborano con i clienti sin dall’inizio, elaborando piani di messa in servizio, protocolli di guasto e manutenzione a lungo termine. Questa partnership non termina con l’avvio del sistema, ma continua attraverso il supporto quotidiano: campionamento dei fluidi, formazione degli operatori, revisioni del sistema e ottimizzazione delle prestazioni man mano che le esigenze di calcolo evolvono.
La manutenzione preventiva avanzata consente una manutenzione mirata, in cui i team si concentrano su elementi ad alto impatto oltre alla consueta lista di controllo della manutenzione. Inoltre, il monitoraggio in tempo reale rileva potenziali anomalie. Ciò consente ai team e agli ingegneri consulenti di intervenire immediatamente, prevenendo i guasti e migliorando l’affidabilità.
Progettare per la sicurezza per operare con fiducia
Esistono alcuni rischi, dalla contaminazione dei fluidi e dalle perdite fino alle scariche elettriche. Tuttavia, questi non sono motivi per evitare il sistema di raffreddamento a liquido, ma piuttosto per avvicinarsi alla soluzione con rigore. Con la giusta progettazione, i protocolli di messa in servizio e la disciplina operativa, il raffreddamento a liquido è sicuro e ideale per mantenere le prestazioni e l’operatività su larga scala.


