Qualcomm AI200/250: acceleratori di intelligenza artificiale per centri dati

Avatar
Lisa Ernst · 27.10.2025 · Tecnica · 7 minuti

Qualcomm entra nel mercato dell'inferenza IA nel data center con i sistemi AI200 e AI250. L'obiettivo è avere molta memoria per scheda e un funzionamento rack efficiente a partire dal 2026 e dal 2027. Fino a 768 GB LPDDR per scheda acceleratrice, raffreddamento diretto a liquido e scalabilità tramite PCIe all'interno del rack nonché Ethernet tra i rack sono caratteristiche centrali. Un accordo di dispiegamento da 200 MW con la startup saudita Humain a partire dal 2026 è già pianificato.

Inferenza IA Qualcomm

Qualcomm posiziona le schede acceleratrici AI200 e AI250 e interi rack per l'inferenza IA nel data center. L'inferenza significa, in questo contesto, che modelli già addestrati rispondono alle richieste anziché essere riaddestrati. Questo rappresenta nel data center un'operatività continua a costi elevati, in cui la dimensione della memoria, la larghezza di banda della memoria e l'efficienza energetica sono decisive. I nuovi sistemi si basano sull'Hexagon-NPU di Qualcomm, derivato dal settore mobile e scalato per carichi di lavoro di data center. Ogni scheda AI200 dovrebbe contenere fino a 768 GB di memoria LPDDR. I sistemi utilizzano raffreddamento diretto a liquido, PCIe per lo scale-up all'interno del rack e Ethernet per lo scale-out tra i rack. Questo mira a una migliore Total Cost of Ownership (TCO) attraverso alta densità di memoria ed efficienza. L'AI250 si concentra su un'architettura Near-Memory con più di dieci volte la larghezza di banda di memoria effettiva, particolarmente rilevante per grandi trasformatori e lunghi contesti.

Contesto & Sfondo

Il passo di Qualcomm nel mercato dei data center per l'inferenza IA è parte di una strategia di diversificazione per diventare meno dipendente dal ciclo degli smartphone e per espandersi in mercati con AI-CAPEX sostenibile. L'inferenza è considerata da molti operatori come il maggiore costo rispetto all'addestramento, poiché scale 24/7 ed è strettamente legata all'utente finale. Un'alta capacità RAM per scheda può ridurre lo sharding del modello, minimizzare il traffico di comunicazione e quindi ridurre latenza e costi per risposta. L'ingresso di un colosso dei chip mobili nel campo IA di rack-scale attira l'attenzione, poiché affronta attori consolidati come Nvidia e AMD nel loro mercato principale e propone una roadmap annuale.

Riassunto – Il chip Qualcomm Cloud AI 100, predecessore della serie AI200/AI250, dimostra l'impegno di Qualcomm nel settore degli acceleratori IA per data center.

Quelle: computerworld.ch

Il chip Qualcomm Cloud AI 100, predecessore della serie AI200/AI250, dimostra l'impegno di Qualcomm nel campo degli acceleratori IA per data center.

La tecnologia di base, l'Hexagon-NPU di Qualcomm, è nota dal settore mobile ed è stata scalata per le esigenze dei carichi di lavoro di data center. Ciò consente a Qualcomm di basarsi su know-how esistente e contemporaneamente di aprire nuovi mercati. L'importanza strategica di questo passo è sottolineata dalla collaborazione con Humain, una startup saudita, che con il supporto del Public Investment Fund (PIF) intende coprire l'intera catena del valore dell'IA, inclusi data center e grandi modelli linguistici arabi.

L'annuncio di AI200 e AI250 avviene in un contesto in cui la domanda di soluzioni di inferenza IA efficienti e ad alte prestazioni è in costante crescita. Le aziende cercano modi per ridurre i costi operativi per le applicazioni IA e allo stesso tempo aumentare le prestazioni. L'approccio di Qualcomm di combinare una elevata densità di memoria con l'efficienza energetica potrebbe offrire qui un vantaggio competitivo.

Quelle: YouTube

Il clip di CNBC fornisce ulteriore contesto sulla strategia di data center di Qualcomm e spiega l'integrazione con gli stack IA esistenti derivanti da annunci precedenti.

Stato attuale & sviluppo

Lo sviluppo attorno all'iniziativa di data center di Qualcomm si è accelerato negli ultimi mesi:

Questi eventi mostrano una strategia chiara e un rapido progresso nell'attuazione delle ambizioni di Qualcomm nel data center. La partnership con Humain rappresenta un segnale precoce e concreto di accettazione da parte del mercato e di fiducia nei nuovi prodotti.

Analisi & implicazioni

L'ingresso di Qualcomm nel mercato dell'inferenza IA per data center è guidato da motivi strategici. L'azienda punta a diventare indipendente dal ciclo degli smartphone e a investire nel mercato crescente del CAPEX IA. L'inferenza è identificata da molti come il maggiore driver di costi nel data center, poiché scala 24/7 e è strettamente legata all'utente finale. L'elevata capacità di RAM per scheda (fino a 768 GB LPDDR) delle AI200 e AI250 dovrebbe ridurre lo sharding dei modelli, minimizzare la comunicazione e quindi ridurre latenza e costi per risposta. Questo è particolarmente rilevante per grandi modelli di linguaggio (LLM) e lunghi contesti.

Riassunto – La strategia IA globale di Qualcomm integra edge computing con soluzioni cloud, con gli acceleratori AI200/AI250 che svolgono un ruolo centrale nell'infrastruttura del data center.

Quelle: heise.de

La strategia IA globale di Qualcomm integra edge computing con soluzioni cloud, con gli acceleratori AI200/AI250 che svolgono un ruolo centrale nell'infrastruttura del data center.

AI250 si basa su un'architettura Near-Memory, che promette una larghezza di banda di memoria effettiva superiore a dieci volte. Questo è un fattore chiave per l'elaborazione di grandi modelli Transformer e contesti lunghi, che beneficiano notevolmente di un'alta larghezza di banda della memoria. La reazione dei media all'annuncio di Qualcomm è positiva, poiché l'ingresso di un colosso dei chip mobili nel mercato della KI a scala rack è fonte di scalpore e sfida Nvidia e AMD nel loro mercato principale. Qualcomm pianifica inoltre una roadmap annuale, che indica un impegno a lungo termine.

Per gli operatori dei data center, i nuovi sistemi potrebbero comportare una riduzione della Total Cost of Ownership (TCO) e un miglioramento dell'efficienza energetica per richiesta. Il raffreddamento diretto a liquido e la scalabilità tramite PCIe all'interno del rack e Ethernet tra i rack sono caratteristiche tecniche mirate a un funzionamento efficiente. L'accordo di dispiegamento da 200 MW con Humain a partire dal 2026 è un forte segnale di accettazione di mercato e fiducia nelle soluzioni di Qualcomm.

È importante notare che AI200 e AI250 sono specificamente progettati per l'inferenza e non per l'addestramento. Questo è una differenza cruciale rispetto a molti altri acceleratori IA sul mercato e sottolinea l'enfasi di Qualcomm sul funzionamento operativo dei modelli IA. La sfida per Qualcomm sarà imporsi sull'ecosistema Nvidia consolidato e offrire un supporto software comparabile.

Per i team di approvvigionamento è consigliabile verificare anticipatamente la disponibilità di fornitura nel 2026/2027, l'integrazione nelle topologie CNI/rete esistenti e la disponibilità di funzioni di Confidential Computing. La valutazione delle notizie dei media dovrebbe sempre essere integrata da fonti primarie e revisioni tecniche, per distinguere l'hype dai dati affidabili.

Quelle: YouTube

Il video fornisce contesto sul concetto di AI-Factories e aiuta a inquadrare economicamente l'inferenza su scala rack.

Domande aperte & conclusioni

Nonostante le promettenti annunci, rimangono alcune domande aperte. La performance effettiva per watt e per dollaro della AI200/AI250 rispetto agli attuali rack Nvidia e AMD, misurata con benchmark standard come MLPerf Inference, non è ancora chiara. Qualcomm non ha finora fornito valori MLPerf di inferenza o tokens/s, il che lascia aperta la performance relativa in numeri. Sarà cruciale quanto rapidamente l'architettura Near-Memory dell'AI250 maturi nei carichi di lavoro reali e quale maturità software offre lo stack di inferenza di Qualcomm al lancio sul mercato. Non sono ancora disponibili documentazione dettagliata o whitepaper su larghezze di banda, latenze e orchestrazione di Qualcomm.

In breve, si può dire che l'ingresso di Qualcomm nell'inferenza su rack-scale è ben definito: molta memoria per scheda, raffreddamento efficiente e una roadmap che dovrebbe essere distribuita a partire dal 2026. Obiettivi architetturali, dimensionamento della memoria e un grande primo cliente sono già confermati. Quello che manca sono dati di benchmark concreti tratti dalla pratica. Per le aziende che pianificano per il 2026/2027, è consigliabile valutare le opzioni ora, verificare i percorsi software e preparare l'acquisto e la pianificazione energetica in base ai nuovi parametri.

Teilen Sie doch unseren Beitrag!