Qualcomm AI200/250: Aceleradores de IA para centros de dados

Avatar
Lisa Ernst · 27.10.2025 · Tecnologia · 7 min

Qualcomm entra no mercado de inferência de IA em data centers com os sistemas AI200 e AI250. O foco está em bastante memória por placa e operação eficiente em rack a partir de 2026 e 2027, respetivamente. Até 768 GB LPDDR por placa aceleradora, refrigeração líquida direta e escalonamento via PCIe no rack bem como Ethernet entre racks são características centrais. Um acordo de implantação de 200 MW com a startup saudita Humain a partir de 2026 já está planejado.

Inferência de IA da Qualcomm

A Qualcomm posiciona as placas aceleradoras AI200 e AI250, bem como racks completos para inferência de IA em centros de dados. A inferência significa, neste caso, que modelos já treinados respondem a solicitações, em vez de serem treinados novamente. Isso implica, no data center, uma operação contínua que consome custos, onde o tamanho da memória, largura de banda de memória e eficiência energética são decisivos. Os novos sistemas baseiam-se no NPU Hexagon da Qualcomm, que foi dimensionado a partir do segmento móvel para cargas de trabalho de data center. Cada placa AI200 deve suportar até 768 GB de memória LPDDR. Os sistemas utilizam refrigeração líquida direta, PCIe para escalonamento dentro do rack e Ethernet para escalonamento entre racks. Isso visa uma melhor Total Cost of Ownership (TCO) através de alta densidade de memória e eficiência. O AI250 aposta numa arquitetura Near-Memory com mais de dez vezes a largura de banda efetiva de memória, o que é especialmente relevante para grandes transformadores e contextos longos.

Contexto & Contexto

Passo da Qualcomm no mercado de data centers para inferência de IA faz parte de uma estratégia de diversificação para tornar-se mais independente do ciclo de smartphones e para expandir para mercados com Capex de IA sustentável. A inferência é vista por muitos operadores como um custo maior do que o treino, pois escala 24/7 e está intimamente ligada ao utilizador final. Uma alta capacidade de RAM por placa pode reduzir o particionamento de modelos (Model-Sharding), minimizar o tráfego de interconexão e, assim, reduzir latência e custos por resposta. A entrada de um gigante de chips móveis no KI em rack-scale atrai atenção, pois endereça players estabelecidos como Nvidia e AMD em seu mercado principal, e apresenta um roteiro anual.

Quer – O chip Qualcomm Cloud AI 100, um antecessor da série AI200/AI250, demonstra o compromisso da Qualcomm com aceleradores de IA para data centers.

Quelle: computerworld.ch

O chip Qualcomm Cloud AI 100, um antecessor da série AI200/AI250, demonstra o compromisso da Qualcomm com aceleradores de IA para data centers.

A tecnologia subjacente, o Hexagon-NPU da Qualcomm, é conhecida no setor móvel e foi dimensionada para atender às demandas de cargas de trabalho de data centers. Isso permite à Qualcomm construir sobre o know-how existente e ao mesmo tempo abrir novos mercados. O significado estratégico deste passo é sublinhado pela colaboração com a Humain, uma startup saudita, que, com o apoio do Public Investment Fund (PIF), pretende cobrir toda a cadeia de valor da IA, incluindo data centers e grandes modelos de linguagem em árabe.

O anúncio da AI200 e AI250 ocorre em um contexto em que a demanda por soluções de inferência de IA eficientes e potentes continua a crescer. As empresas procuram maneiras de reduzir os custos operacionais de aplicações de IA e, ao mesmo tempo, aumentar o desempenho. A abordagem da Qualcomm de combinar alta densidade de memória com eficiência energética poderia oferecer uma vantagem competitiva.

Quelle: YouTube

O clipe da CNBC oferece contexto adicional sobre a estratégia de data centers da Qualcomm e explica a integração com stacks de IA existentes de anúncios anteriores.

Situação atual & Desenvolvimento

O desenvolvimento em torno da iniciativa de data centers da Qualcomm acelerou-se nos últimos meses:

Estes eventos mostram uma estratégia clara e um avanço rápido na implementação das ambições de data centers da Qualcomm. A parceria com Humain é um sinal precoce e concreto da aceitação do mercado e da confiança nos novos produtos.

Análise & Implicações

A entrada da Qualcomm no mercado de inferência de IA para data centers é estrategicamente motivada. A empresa busca independência do ciclo de smartphones e quer investir no crescente mercado de Capex de IA. A inferência é identificada como o maior motor de custo no data center, pois requer operação 24/7 e está intimamente ligada aos utilizadores finais. A alta capacidade de RAM por placa (até 768 GB LPDDR) das AI200 e AI250 deve reduzir o model-Sharding, minimizar o tráfego de interconexão e, portanto, reduzir latência e custos por resposta. Isto é particularmente relevante para grandes modelos de linguagem (LLMs) e contextos longos.

Que – A estratégia abrangente de IA da Qualcomm integra Edge-Computing com soluções em nuvem, com os aceleradores AI200/AI250 desempenhando um papel central na infraestrutura de data center.

Quelle: heise.de

A estratégia abrangente de IA da Qualcomm integra Edge-Computing com soluções em nuvem, com os aceleradores AI200/AI250 desempenhando um papel central na infraestrutura de data center.

O AI250 aposta numa arquitetura Near-Memory, que promete mais de dez vezes a largura de banda efetiva de memória. Este é um fator decisivo para o processamento de grandes modelos Transformer e contextos longos, pois estes se beneficiam de uma alta largura de banda de memória. A reação da mídia ao anúncio da Qualcomm é positiva, pois a entrada de um gigante de chips móveis no mercado de IA em rack-scale está a causar sensação e desafia a Nvidia e a AMD em seu mercado principal. A Qualcomm também planeja uma roadmap anual, o que sugere um compromisso de longo prazo.

Para operadores de data centers, os novos sistemas significam potencialmente uma redução do Custo Total de Propriedade (TCO) e uma melhoria da eficiência energética por pedido. A refrigeração líquida direta e a escalabilidade via PCIe no rack, bem como Ethernet entre racks, são características técnicas que visam uma operação eficiente. O acordo de deployment de 200 MW com Humain a partir de 2026 é um sinal forte de aceitação do mercado e confiança nas soluções da Qualcomm.

É importante notar que as AI200 e AI250 são explicitamente projetadas para inferência e não para treino. Isto é uma diferença crucial em relação a muitos outros aceleradores de IA no mercado e sublinha o foco da Qualcomm no funcionamento operacional de modelos de IA. O desafio para a Qualcomm será estabelecer-se no ecossistema já estabelecido pela Nvidia e oferecer um suporte de software comparável.

Para equipas de aquisição, é aconselhável verificar com antecedência a capacidade de fornecimento para 2026/2027, a integração nas topologias de CNI/rede existentes e a disponibilidade de funções de Confidential Computing. A avaliação de notícias da mídia deve sempre ser complementada por fontes primárias e revisões técnicas, para separar o hype de dados confiáveis.

Quelle: YouTube

O vídeo oferece contexto sobre o conceito de fábricas de IA (AI-Factories) e ajuda a enquadrar economicamente a inferência de rack-scale.

Perguntas em aberto & Conclusões

Apesar dos anúncios promissores, permanecem algumas questões em aberto. O desempenho concreto por watt e por dólar da AI200/AI250 em comparação com racks atuais da Nvidia e AMD, medido por benchmarks padronizados como MLPerf Inference, ainda não está claro. A Qualcomm ainda não forneceu valores de MLPerf Inference ou tokens/s, o que deixa a performance relativa em números em aberto. Será crucial quão rapidamente a arquitetura Near-Memory da AI250 amadurece em cargas reais de trabalho e que maturidade de software o stack de inferência da Qualcomm traga no lançamento no mercado. Documentação detalhada ou whitepapers sobre larguras de banda, latências e orquestração da Qualcomm ainda está por vir.

Em suma, o passo da Qualcomm para inferência em rack-scale está claramente definido: muito memória por placa, refrigeração eficiente e um roadmap que será implementado a partir de 2026. Objetivos de arquitetura, dimensionamento de memória e um grande primeiro cliente já estão comprovados. O que falta ainda são dados de benchmarks práticos. Para empresas que planejam para 2026/2027, é aconselhável avaliar as opções agora, verificar os caminhos de software e preparar a aquisição e o planeamento de energia para os novos parâmetros.

Teilen Sie doch unseren Beitrag!