Qualcomm AI200/250: acceleratori di intelligenza artificiale per centri dati
Qualcomm entra nel mercato dell'inferenza IA nel data center con i sistemi AI200 e AI250. L'obiettivo è avere molta memoria per scheda e un funzionamento rack efficiente a partire dal 2026 e dal 2027. Fino a 768 GB LPDDR per scheda acceleratrice, raffreddamento diretto a liquido e scalabilità tramite PCIe all'interno del rack nonché Ethernet tra i rack sono caratteristiche centrali. Un accordo di dispiegamento da 200 MW con la startup saudita Humain a partire dal 2026 è già pianificato.
Inferenza IA Qualcomm
Qualcomm posiziona le schede acceleratrici AI200 e AI250 e interi rack per l'inferenza IA nel data center. L'inferenza significa, in questo contesto, che modelli già addestrati rispondono alle richieste anziché essere riaddestrati. Questo rappresenta nel data center un'operatività continua a costi elevati, in cui la dimensione della memoria, la larghezza di banda della memoria e l'efficienza energetica sono decisive. I nuovi sistemi si basano sull'Hexagon-NPU di Qualcomm, derivato dal settore mobile e scalato per carichi di lavoro di data center. Ogni scheda AI200 dovrebbe contenere fino a 768 GB di memoria LPDDR. I sistemi utilizzano raffreddamento diretto a liquido, PCIe per lo scale-up all'interno del rack e Ethernet per lo scale-out tra i rack. Questo mira a una migliore Total Cost of Ownership (TCO) attraverso alta densità di memoria ed efficienza. L'AI250 si concentra su un'architettura Near-Memory con più di dieci volte la larghezza di banda di memoria effettiva, particolarmente rilevante per grandi trasformatori e lunghi contesti.
Contesto & Sfondo
Il passo di Qualcomm nel mercato dei data center per l'inferenza IA è parte di una strategia di diversificazione per diventare meno dipendente dal ciclo degli smartphone e per espandersi in mercati con AI-CAPEX sostenibile. L'inferenza è considerata da molti operatori come il maggiore costo rispetto all'addestramento, poiché scale 24/7 ed è strettamente legata all'utente finale. Un'alta capacità RAM per scheda può ridurre lo sharding del modello, minimizzare il traffico di comunicazione e quindi ridurre latenza e costi per risposta. L'ingresso di un colosso dei chip mobili nel campo IA di rack-scale attira l'attenzione, poiché affronta attori consolidati come Nvidia e AMD nel loro mercato principale e propone una roadmap annuale.

Quelle: computerworld.ch
Il chip Qualcomm Cloud AI 100, predecessore della serie AI200/AI250, dimostra l'impegno di Qualcomm nel campo degli acceleratori IA per data center.
La tecnologia di base, l'Hexagon-NPU di Qualcomm, è nota dal settore mobile ed è stata scalata per le esigenze dei carichi di lavoro di data center. Ciò consente a Qualcomm di basarsi su know-how esistente e contemporaneamente di aprire nuovi mercati. L'importanza strategica di questo passo è sottolineata dalla collaborazione con Humain, una startup saudita, che con il supporto del Public Investment Fund (PIF) intende coprire l'intera catena del valore dell'IA, inclusi data center e grandi modelli linguistici arabi.
L'annuncio di AI200 e AI250 avviene in un contesto in cui la domanda di soluzioni di inferenza IA efficienti e ad alte prestazioni è in costante crescita. Le aziende cercano modi per ridurre i costi operativi per le applicazioni IA e allo stesso tempo aumentare le prestazioni. L'approccio di Qualcomm di combinare una elevata densità di memoria con l'efficienza energetica potrebbe offrire qui un vantaggio competitivo.
Quelle: YouTube
Il clip di CNBC fornisce ulteriore contesto sulla strategia di data center di Qualcomm e spiega l'integrazione con gli stack IA esistenti derivanti da annunci precedenti.
Stato attuale & sviluppo
Lo sviluppo attorno all'iniziativa di data center di Qualcomm si è accelerato negli ultimi mesi:
- 12.05.2025: L'Arabia Saudita avvia Humain come azienda IA guidata da PIF con l'obiettivo di coprire l'intera catena del valore IA, inclusi data center e grandi modelli linguistici arabi. (pif.gov.sa; reuters.com).
- 13.05.2025: Qualcomm e Humain annunciano una collaborazione per la costruzione di moderni data center IA e servizi Cloud-to-Edge. (qualcomm.com).
- 19.05.2025: Reuters riferisce piani di Qualcomm per CPU per data center personalizzate, pensate per funzionare insieme agli acceleratori Nvidia. Ciò evidenzia il ritorno di Qualcomm nel mercato DC oltre gli smartphone. (reuters.com).
- 25.08.2025: Reuters riferisce progressi nella costruzione dei data center Humain a Riad e Dammān con avvio previsto all'inizio del 2026 e utilizzo di chip statunitensi. Ciò mostra l'enorme sviluppo del calcolo nella regione. (reuters.com).
- 27.10.2025: Qualcomm ufficializza la mossa: AI200 (lancio sul mercato nel 2026) e AI250 (nel 2027) per l'inferenza a scala rack, oltre ai propri rack. Il prezzo delle azioni balza in modo significativo; i sistemi puntano a una migliore Total Cost of Ownership (TCO) grazie all'alta densità di memoria e all'efficienza. (reuters.com). Punti chiave tecnici: 768 GB LPDDR per scheda, raffreddamento diretto a liquido, 160 kW per rack, PCIe scale-up ed Ethernet scale-out (tomshardware.com; constellationr.com). L'accordo Humain prevede dal 2026 il rollout di rack AI200/AI250 da 200 MW (prnewswire.com; reuters.com).
Questi eventi mostrano una strategia chiara e un rapido progresso nell'attuazione delle ambizioni di Qualcomm nel data center. La partnership con Humain rappresenta un segnale precoce e concreto di accettazione da parte del mercato e di fiducia nei nuovi prodotti.
Analisi & implicazioni
L'ingresso di Qualcomm nel mercato dell'inferenza IA per data center è guidato da motivi strategici. L'azienda punta a diventare indipendente dal ciclo degli smartphone e a investire nel mercato crescente del CAPEX IA. L'inferenza è identificata da molti come il maggiore driver di costi nel data center, poiché scala 24/7 e è strettamente legata all'utente finale. L'elevata capacità di RAM per scheda (fino a 768 GB LPDDR) delle AI200 e AI250 dovrebbe ridurre lo sharding dei modelli, minimizzare la comunicazione e quindi ridurre latenza e costi per risposta. Questo è particolarmente rilevante per grandi modelli di linguaggio (LLM) e lunghi contesti.

Quelle: heise.de
La strategia IA globale di Qualcomm integra edge computing con soluzioni cloud, con gli acceleratori AI200/AI250 che svolgono un ruolo centrale nell'infrastruttura del data center.
AI250 si basa su un'architettura Near-Memory, che promette una larghezza di banda di memoria effettiva superiore a dieci volte. Questo è un fattore chiave per l'elaborazione di grandi modelli Transformer e contesti lunghi, che beneficiano notevolmente di un'alta larghezza di banda della memoria. La reazione dei media all'annuncio di Qualcomm è positiva, poiché l'ingresso di un colosso dei chip mobili nel mercato della KI a scala rack è fonte di scalpore e sfida Nvidia e AMD nel loro mercato principale. Qualcomm pianifica inoltre una roadmap annuale, che indica un impegno a lungo termine.
Per gli operatori dei data center, i nuovi sistemi potrebbero comportare una riduzione della Total Cost of Ownership (TCO) e un miglioramento dell'efficienza energetica per richiesta. Il raffreddamento diretto a liquido e la scalabilità tramite PCIe all'interno del rack e Ethernet tra i rack sono caratteristiche tecniche mirate a un funzionamento efficiente. L'accordo di dispiegamento da 200 MW con Humain a partire dal 2026 è un forte segnale di accettazione di mercato e fiducia nelle soluzioni di Qualcomm.
È importante notare che AI200 e AI250 sono specificamente progettati per l'inferenza e non per l'addestramento. Questo è una differenza cruciale rispetto a molti altri acceleratori IA sul mercato e sottolinea l'enfasi di Qualcomm sul funzionamento operativo dei modelli IA. La sfida per Qualcomm sarà imporsi sull'ecosistema Nvidia consolidato e offrire un supporto software comparabile.
Per i team di approvvigionamento è consigliabile verificare anticipatamente la disponibilità di fornitura nel 2026/2027, l'integrazione nelle topologie CNI/rete esistenti e la disponibilità di funzioni di Confidential Computing. La valutazione delle notizie dei media dovrebbe sempre essere integrata da fonti primarie e revisioni tecniche, per distinguere l'hype dai dati affidabili.
Quelle: YouTube
Il video fornisce contesto sul concetto di AI-Factories e aiuta a inquadrare economicamente l'inferenza su scala rack.
Domande aperte & conclusioni
Nonostante le promettenti annunci, rimangono alcune domande aperte. La performance effettiva per watt e per dollaro della AI200/AI250 rispetto agli attuali rack Nvidia e AMD, misurata con benchmark standard come MLPerf Inference, non è ancora chiara. Qualcomm non ha finora fornito valori MLPerf di inferenza o tokens/s, il che lascia aperta la performance relativa in numeri. Sarà cruciale quanto rapidamente l'architettura Near-Memory dell'AI250 maturi nei carichi di lavoro reali e quale maturità software offre lo stack di inferenza di Qualcomm al lancio sul mercato. Non sono ancora disponibili documentazione dettagliata o whitepaper su larghezze di banda, latenze e orchestrazione di Qualcomm.
In breve, si può dire che l'ingresso di Qualcomm nell'inferenza su rack-scale è ben definito: molta memoria per scheda, raffreddamento efficiente e una roadmap che dovrebbe essere distribuita a partire dal 2026. Obiettivi architetturali, dimensionamento della memoria e un grande primo cliente sono già confermati. Quello che manca sono dati di benchmark concreti tratti dalla pratica. Per le aziende che pianificano per il 2026/2027, è consigliabile valutare le opzioni ora, verificare i percorsi software e preparare l'acquisto e la pianificazione energetica in base ai nuovi parametri.