Qualcomm AI200/250 : accélérateurs IA pour les centres de données
Qualcomm entre dans l'inférence IA au centre de données avec les systèmes AI200 et AI250. L'accent est mis sur une grande mémoire par carte et un fonctionnement efficace du rack à partir de 2026 et 2027, respectivement. Jusqu'à 768 Go LPDDR par carte d'accélération, refroidissement liquide direct et mise à l'échelle via PCIe dans le rack, ainsi que Ethernet entre les racks, sont des caractéristiques centrales. Un accord de déploiement de 200 MW avec la startup saoudienne Humain à partir de 2026 est déjà prévu.
Inférence IA Qualcomm
Qualcomm positionne les cartes d'accélération AI200 et AI250 ainsi que des racks complets pour l'inférence IA dans les centres de données. L'inférence signifie ici que des modèles déjà entraînés répondent aux requêtes, plutôt que d'être réentraînés. Cela représente dans le centre de données une opération continue coûteuse, où la taille de la mémoire, la largeur de bande mémoire et l'efficacité énergétique sont déterminants. Les nouveaux systèmes sont basés sur le NPU Hexagon de Qualcomm, qui a été dimensionné pour les charges de travail des centres de données à partir du domaine mobile. Chaque carte AI200 doit supporter jusqu'à 768 Go de mémoire LPDDR. Les systèmes utilisent un refroidissement liquide direct, PCIe pour l'échelle au sein du rack et Ethernet pour l'échelle entre les racks. Cela vise une meilleure TCO (coût total de possession) grâce à une haute densité mémoire et à l'efficacité. L'AI250 mise sur une architecture Near-Memory avec une bande passante mémoire effective plus de dix fois supérieure, ce qui est particulièrement pertinent pour les grands transformeurs et les longs contextes.
Contexte & Environnement
La démarche de Qualcomm sur le marché des centres de données pour l'inférence IA fait partie d'une stratégie de diversification visant à être moins dépendant du cycle des smartphones et à s'étendre vers des marchés avec un CAPEX IA durable. L'inférence est considérée par de nombreux opérateurs comme un coût plus important que la formation, car elle s'étend 24h/24 et 7j/7 et est étroitement liée à l'utilisateur final. Une grande capacité RAM par carte peut réduire le sharding des modèles, minimiser le trafic interconnect et ainsi réduire la latence et le coût par réponse. L'entrée d'un géant des puces mobiles dans l'IA à l'échelle de racks attire l'attention, car il s'attaque à des acteurs établis tels que Nvidia et AMD sur leur marché principal et prévoit une feuille de route annuelle.

Quelle: computerworld.ch
Le Qualcomm Cloud AI 100 Chip, prédécesseur de la série AI200/AI250, démontre l'engagement de Qualcomm dans le domaine des accélérateurs IA pour les centres de données.
La technologie sous-jacente, le NPU Hexagon de Qualcomm, est connue du domaine mobile et a été hautement évoluée pour répondre aux charges de travail des centres de données. Cela permet à Qualcomm de s'appuyer sur un savoir-faire existant et d'ouvrir simultanément de nouveaux marchés. L'importance stratégique de cette étape est renforcée par la collaboration avec Humain, une startup saoudienne, qui avec le soutien du Public Investment Fund (PIF) prévoit de couvrir toute la chaîne de valeur de l'IA, y compris les centres de données et les grands modèles de langue arabes.
L'annonce des AI200 et AI250 s'inscrit dans un contexte de demande croissante de solutions d'inférence IA efficaces et performantes. Les entreprises cherchent des moyens de réduire les coûts d'exploitation des applications IA tout en améliorant les performances. L'approche de Qualcomm consistant à combiner une forte densité de mémoire et l'efficacité énergétique pourrait offrir un avantage concurrentiel.
Quelle: YouTube
Le clip CNBC fournit un contexte supplémentaire sur la stratégie des centres de données de Qualcomm et décrit l'articulation avec les stacks IA existants issus des annonces précédentes.
État actuel & Développement
Le développement autour de l'initiative de Qualcomm pour les centres de données s'est accéléré au cours des derniers mois :
- 12.05.2025: L'Arabie Saoudite lance Humain en tant qu'entreprise IA dirigée par le PIF, visant à couvrir l'intégralité de la chaîne de valeur de l'IA, y compris les centres de données et les grands modèles de langue arabes (pif.gov.sa; reuters.com).
- 13.05.2025: Qualcomm et Humain annoncent une coopération pour la construction de centres de données IA modernes et de services Cloud-to-Edge (qualcomm.com).
- 19.05.2025: Reuters rapporte les plans de Qualcomm pour des CPU de centre de données sur mesure, destinées à interopérer avec des accélérateurs Nvidia. Cela souligne le retour de Qualcomm sur le marché DC au-delà des smartphones (reuters.com).
- 25.08.2025: Reuters rapporte les progrès de construction des centres Humain à Riyad et Dammam avec un démarrage prévu début 2026 et l'utilisation de puces américaines. Cela montre l'énorme développement informatique dans la région (reuters.com).
- 27.10.2025: Qualcomm officialise le pas : AI200 (lancement sur le marché en 2026) et AI250 (2027) pour l'inférence à l'échelle des racks, ainsi que des racks propres. Le cours en bourse bondit nettement; les systèmes visent une meilleure TCO grâce à une haute densité mémoire et à l'efficacité. (reuters.com). Caractéristiques techniques : 768 Go LPDDR par carte, refroidissement liquide direct, 160 kW par rack, PCIe Scale-up et Ethernet Scale-out (tomshardware.com; constellationr.com). Le contrat Humain prévoit à partir de 2026 le déploiement de racks AI200/AI250 d'une capacité de 200 MW. (prnewswire.com; reuters.com).
Ces événements montrent une stratégie claire et des progrès rapides dans la mise en œuvre des ambitions de Qualcomm pour les centres de données. Le partenariat avec Humain constitue un signe précoce et tangible de l'acceptation du marché et de la confiance dans les nouveaux produits.
Analyse & Implications
L'entrée de Qualcomm sur le marché de l'inférence IA pour les centres de données est stratégiquement motivée. L'entreprise cherche à devenir indépendante du cycle des smartphones et veut investir dans le marché croissant du CAPEX IA. L'inférence est identifiée comme le principal facteur de coût dans les centres de données, car elle nécessite un fonctionnement 24/7 et est étroitement liée à l'utilisateur final. La grande capacité RAM par carte (jusqu'à 768 Go LPDDR) des AI200 et AI250 devrait réduire le sharding des modèles, diminuer le trafic interconnect et ainsi diminuer la latence et le coût par réponse. Cela est particulièrement pertinent pour les grands modèles de langage (LLMs) et les longs contextes.

Quelle: heise.de
La stratégie IA globale de Qualcomm intègre l'informatique en périphérie et les solutions cloud, les accélérateurs AI200/AI250 jouent un rôle central dans l'infrastructure des centres de données.
Le AI250 repose sur une architecture Near-Memory qui promet une bande passante mémoire effective plus de dix fois supérieure. C'est un facteur clé pour le traitement des grands transformeurs et des longs contextes, qui bénéficient fortement d'une grande largeur de bande mémoire. La réaction des médias à l'annonce de Qualcomm est positive, car l'entrée d'un géant des puces mobiles sur le marché de l'IA à l'échelle rack suscite l'attention et défie Nvidia et AMD sur leur marché principal. Qualcomm prévoit également une feuille de route annuelle, ce qui laisse supposer un engagement à long terme.
Pour les opérateurs de centres de données, les nouveaux systèmes signifient potentiellement une réduction du coût total de possession (TCO) et une amélioration de l'efficacité énergétique par requête. Le refroidissement liquide direct et l'évolutivité via PCIe dans le rack ainsi que l'ethernet entre les racks sont des caractéristiques techniques visant une opération efficace. L'accord de déploiement de 200 MW avec Humain à partir de 2026 est un signal fort d'acceptation du marché et de confiance dans les solutions de Qualcomm.
Il est important de noter que l'AI200 et l'AI250 sont explicitement conçus pour l'inférence et non pour l'entraînement. Il s'agit d'une différence déterminante par rapport à de nombreux autres accélérateurs IA sur le marché et cela souligne l'accent mis par Qualcomm sur l'exploitation opérationnelle des modèles IA. Le défi pour Qualcomm sera de s'imposer face à l'écosystème établi de Nvidia et de proposer un support logiciel comparable.
Pour les équipes d'approvisionnement, il est conseillé d'évaluer les capacités de livraison en 2026/2027, l'intégration dans les topologies CNI/réseaux existantes et la disponibilité des fonctions Confidential Computing dès que possible. L'interprétation des médias devrait toujours être complétée par des sources primaires et des revues techniques afin de séparer le battage médiatique des données crédibles.
Quelle: YouTube
La vidéo fournit des éléments de contexte sur le concept des AI-Factories et aide à évaluer l'inférence à l'échelle des racks sur le plan économique.
Questions ouvertes & Conclusion
Malgré les annonces prometteuses, certaines questions restent sans réponse. Les performances réelles en watt et en dollar du AI200/AI250 par rapport aux racks Nvidia et AMD actuels, mesurées selon des benchmarks standardisés tels que MLPerf Inference, ne sont pas encore claires. Qualcomm n'a pas encore communiqué de valeurs MLPerf d'inférence ou de tokens/s, ce qui laisse la performance relative en chiffres ouverte. Il sera crucial de voir à quelle vitesse l'architecture Near-Memory du AI250 mûrit dans les charges réelles et quelle maturité logicielle apportera le stack d'inférence de Qualcomm au lancement sur le marché. Une documentation détaillée ou un livre blanc sur les bandes passantes, les latences et l'orchestration de Qualcomm est toujours en cours de publication.
En résumé, l'entrée de Qualcomm dans l'inférence à l'échelle des racks est clairement définie : beaucoup de mémoire par carte, refroidissement efficace et une roadmap qui sera déployée à partir de 2026. Les objectifs architecturaux, la conception mémoire et un grand premier client sont déjà établis. Ce qui manque encore, ce sont des données de référence concrètes issues de la pratique. Pour les entreprises qui prévoient pour 2026/2027, il est conseillé d'évaluer les options dès maintenant, d'examiner les chemins logiciels et de préparer les achats et la planification énergétique en fonction des nouveaux paramètres.