高通 AI200/AI250:用于数据中心的人工智能加速器

Avatar
莉莎·恩斯特 · 27.10.2025 · 技术 · 7 分钟

高通通过 AI200 和 AI250 系统进入数据中心的 AI 推理市场。重点在于每张卡的大容量内存和自 2026 年及 2027 年起的高效机架运行。每张加速卡最多支持 768 GB LPDDR,直接液体冷却,并通过 PCIe 在机架内实现扩展以及在机架之间通过以太网实现扩展。这些特点旨在通过高存储密度和高效性来提升总拥有成本(TCO)。AI250 采用近存储架构,提供超过十倍的有效存储带宽,这在大型 Transformer 模型和长上下文中尤为相关。

高通 AI 推断

高通推出 AI200 与 AI250 加速器卡以及用于数据中心 AI 推断的完整机架。推断意味着已经训练好的模型会对请求作出回答,而不是重新训练。在数据中心,这是一项成本推动的持续运营,存储容量、存储带宽和能源效率至关重要。新系统基于高通的 Hexagon-NPU,该芯片从移动领域为数据中心工作负载而放大。每张 AI200 卡应搭载最高 768 GB 的 LPDDR 存储。系统采用直接液体冷却,在机架内通过 PCIe 实现扩展,以及在机架之间通过以太网实现扩展。这些特点旨在通过高存储密度和高效性来提升总拥有成本(TCO)。AI250 采用近存储架构,提供超过十倍的有效存储带宽,这在大型 Transformer 模型和长上下文中尤为相关。

背景与上下文

高通进入数据中心 AI 推断市场的步骤是其多元化战略的一部分,旨在提高对智能手机周期的独立性,并在具备可持续 AI 资本支出的市场中扩张。推断被许多运营商视为比训练更大的成本驱动因素,因为它是 24/7 的扩展,并与最终用户紧密相连。每张卡具有较高的 RAM 容量可以减少模型分片、降低通信开销,从而降低延迟和每次响应的成本。移动芯片巨头进入机架级 AI 的举动引人注目,因为它在 Nvidia 和 AMD 等核心市场中提出挑战,并展望年度路线图。

横向观察 — 高通 Cloud AI 100 芯片,AI200/AI250 系列的前身,展示了高通在数据中心 AI 加速器领域的投入。

Quelle: computerworld.ch

高通 Cloud AI 100 芯片,AI200/AI250 系列的前身,展示了高通在数据中心 AI 加速器领域的投入。

基础技术是高通的 Hexagon-NPU,来自移动领域,已为数据中心工作负载的需求进行高水平扩展。这使高通能够建立在现有知识基础之上,并同时开拓新的市场。与 Humain 的合作凸显了这一行动的战略意义,Humain 是一家沙特阿拉伯的初创公司,在公共投资基金(PIF)的支持下,计划覆盖整个 AI 价值链,包括数据中心和大型阿拉伯语模型。

在对高效且性能强大的 AI 推断解决方案需求持续增长的背景下,AI200 与 AI250 的宣布出台。企业寻找降低 AI 应用运营成本并同时提升性能的途径。高存储密度与能效相结合的高通方法在这里可能提供竞争优势。

Quelle: YouTube

CNBC 剪辑提供了关于高通数据中心战略的更多背景信息,并解释了其与早期公告中现有 AI 堆栈的协同关系。

当前状态与发展

在过去几个月里,高通数据中心计划的发展步伐加快:

这些事件显示出明确的战略以及高通数据中心雄心落地的快速进展。与 Humain 的伙伴关系是市场接受度和对新产品信任的早期且具体的信号。

分析与影响

高通进入数据中心 AI 推断市场具有战略动机。公司寻求摆脱对智能手机周期的依赖,并希望在日益增长的 AI-CAPEX 市场投资。推断被确认为数据中心中成本更高的驱动因素,因为它需要 24/7 运行,并且与最终用户紧密相关。AI200 和 AI250 每张卡的高 RAM 容量(高达 768 GB LPDDR)应有助于减少模型分片、降低互连流量,从而降低延迟和每次响应的成本。这对于大型语言模型(LLMs)和长上下文特别相关。

横向视角 – 高通全面的 AI 策略将边缘计算与云端解决方案整合,其中 AI200/AI250 加速器在数据中心基础设施中发挥核心作用。

Quelle: heise.de

高通全面的 AI 策略将边缘计算与云端解决方案整合,其中 AI200/AI250 加速器在数据中心基础设施中发挥核心作用。

AI250 采用近存储架构,承诺超过十倍的有效存储带宽。这是处理大型 Transformer 模型和长上下文的关键因素,因为它们强烈受益于高带宽。媒体对于高通宣布的反应是积极的,因为移动芯片巨头进入机架级 AI 市场引起关注,并对 Nvidia 与 AMD在其核心市场构成挑战。高通还计划发布年度路线图,这表明长期投入。

对于数据中心运营商而言,新系统可能降低总体拥有成本(TCO)并提高每次请求的能效。直接液体冷却、机架内 PCIe 扩展以及机架间以太网扩展是旨在实现高效运营的技术特征。自 2026 年起的 Humain 200 MW 部署交易是市场接受度和对高通解决方案信任的强烈信号。

需要注意的是,AI200 与 AI250 专为推断而非训练设计。这与市场上许多其他 AI 加速器存在的关键差异,强调了高通专注于 KI 模型的运行操作。高通面临的挑战是如何与 Nvidia 的既有生态系统竞争并提供可比的软件支持。

采购团队应尽早评估 2026/2027 的交付能力、与现有 CNI/网络拓扑的集成,以及 Confidential-Computing 功能的可用性。媒体报道的解读应始终通过一手来源和技术评测来补充,以将炒作与可核实的数据分开。

Quelle: YouTube

该视频提供了关于 AI 工厂概念的背景信息,帮助对机架级推断进行经济学定位。

未解问题与结论

尽管宣布颇具前景,仍有一些问题待解。与当前的 Nvidia 和 AMD 机架相比,AI200/AI250 在瓦特-小时和美元成本上的具体性能,以及如 MLPerf 推断等标准基准的表现尚不清楚。高通迄今未给出 MLPerf 推断值或每秒 token 数,这使得相对性能以数值形式尚不明确。关键在于 AI250 的近存储架构在实际工作负载中的成熟速度,以及市场发布时高通推断栈的软件成熟度。关于带宽、延迟和编排的详细文档或白皮书仍在制定中。

总之,高通迈向机架规模推断的举措定义明确:每张卡具有大量内存、高效冷却,以及从 2026 年开始的路线图。架构目标、存储设计和一个重要的首个客户已经确定。尚缺乏来自实际环境的硬性基准数据。对于计划在 2026/2027 年的企业,建议现在就评估选项、审查软件路径,并为新参数进行采购与能源规划的准备。

Teilen Sie doch unseren Beitrag!