原文: arXiv:2601.22001 | PDF
作者: Aaron Zhao (Imperial College London), Junyi Liu (Microsoft Research)
核心贡献: 提出系统级异构计算是 AI Agent 推理的关键,识别”内存容量墙”问题


摘要

AI Agent 的兴起显著重塑了计算机系统格局。未来几年将建设千兆瓦级数据中心,主要用于支持 AI 工作负载。我们正在迈向推理密集型的未来——AI Agent 将驱动许多现有和未来应用,运行这些 Agent 的推理可能成为未来 AI 数据中心的主导工作负载。

本文指出,系统级异构性将在数据中心规模上实现内聚集成,并提出两个关键指标:Operational Intensity (OI)Capacity Footprint (CF),用于更好地刻画 AI Agent 推理过程。现有 roofline 模型无法捕捉内存容量限制,我们识别出”内存容量墙”作为新的瓶颈。


1. 问题定义:AI Agent 推理的系统挑战

1.1 推理密集型未来

“我们正在迈向推理密集型的未来——AI Agent 将驱动许多现有和未来应用。”

数据中心趋势:

  • 未来几年建设 千兆瓦级 数据中心
  • AI Agent 推理成为主导工作负载
  • 从训练为主转向推理为主

1.2 异构计算的演进

硬件异构性层次:

  • Level 1: 计算异构 (CPU/GPU/NPU/专用芯片)
  • Level 2: 内存异构 (HBM/DDR/SRAM/CXL)
  • Level 3: 网络异构 (NVLink/InfiniBand/以太网)
  • Level 4: 系统级集成 (数据中心规模)

2. 关键指标:OI 和 CF

2.1 Operational Intensity (OI)

“OI: 从 DRAM 移动每字节数据所执行的操作数。”

物理意义:

  • 高 OI: 计算密集型
  • 低 OI: 内存带宽密集型

2.2 Capacity Footprint (CF)

“CF: LLM 生成中每个 Agent 请求在 DRAM 中所需的字节数。”

对于 KV Cache:

\[CF = 2dL + \frac{md}{B}\]

2.3 工作负载特征映射

四个象限:

象限 特征 瓶颈 典型工作负载
高 OI, 低 CF 计算密集 计算 Prefill-FFN (高 B)
低 OI, 低 CF 带宽密集 内存带宽 Decode-FFN (低 B)
高 OI, 高 CF 计算密集,大内存 内存容量 Prefill-Attention
低 OI, 高 CF 带宽密集,大内存 容量+带宽 Decode-Attention

3. 内存容量墙

3.1 现有模型的局限

“在 LLM token 生成服务中,经常观察到即使在达到内存带宽上限之前,FLOPs 就已经很低。”

传统 Roofline 模型:

  • 只考虑计算 vs 内存带宽
  • 无法解释低 MFU 和低 MBU 同时出现

3.2 内存容量墙

“缺失的维度是内存容量。这也被称为’内存容量墙’。”

表现:

  • 系统无法充分利用计算和内存带宽
  • 内存容量不足以容纳工作集
  • 导致频繁的内存交换或 batch size 受限

4. 影响 OI 和 CF 的因素

4.1 不同 Agentic 工作流

Agent 类型 CF 特征 OI 特征
Chatbot 低 CF 中等 OI
Coding 高 CF 低 OI
Web-use 中等 CF 高 OI
Computer-use 高 CF 低 OI

4.2 模型架构影响

  • MoE 模型: CF 更高
  • Dense 模型: CF 相对较低
  • MLA: 降低 CF

5. 异构计算解决方案

5.1 针对不同工作负载的优化

高 OI, 低 CF: 高算力加速器,大 batch size 低 OI, 低 CF: 高带宽内存,内存级并行 高 OI, 高 CF: 分层内存,智能数据放置 低 OI, 高 CF: 异构内存,CXL 扩展


6. 为什么对 AI 硬件重要

6.1 设计范式转变

从统一架构到异构架构:

  • 单一 GPU 集群 → 异构计算集群
  • 统一内存 → 分层异构内存
  • 同质网络 → 异构互连网络

6.2 硬件设计启示

  1. 内存系统: 需要更大的 HBM 容量或 CXL 扩展
  2. 计算单元: 针对 OI/CF 特征优化
  3. 互连网络: 支持异构数据传输
  4. 调度策略: OI/CF 感知的任务调度

7. 总结

本文识别了 AI Agent 推理的新瓶颈——内存容量墙,并提出了 OI 和 CF 两个关键指标:

  1. 内存容量墙: 现有 roofline 模型无法捕捉的新瓶颈
  2. OI/CF 指标: 更精细刻画 AI Agent 推理特征
  3. 异构计算: 系统级异构是解决方案
  4. 设计指导: 为下一代 AI 硬件提供设计方向

对于 AI 硬件设计,这意味着:

  • 需要更大的内存容量或更智能的内存管理
  • 异构计算不再是可选项,而是必需
  • 系统设计需要考虑多样化的工作负载特征

参考文献

  1. Zhao, A., & Liu, J. (2026). Heterogeneous Computing: The Key to Powering the Future of AI Agent Inference. arXiv:2601.22001.
  2. Williams, S., et al. (2009). Roofline: An Insightful Visual Performance Model for Multicore Architectures. Communications of the ACM.