Research Article
异构计算:AI Agent 推理的未来关键
原文: arXiv:2601.22001 | PDF
作者: Aaron Zhao (Imperial College London), Junyi Liu (Microsoft Research)
核心贡献: 提出系统级异构计算是 AI Agent 推理的关键,识别”内存容量墙”问题
摘要
AI Agent 的兴起显著重塑了计算机系统格局。未来几年将建设千兆瓦级数据中心,主要用于支持 AI 工作负载。我们正在迈向推理密集型的未来——AI Agent 将驱动许多现有和未来应用,运行这些 Agent 的推理可能成为未来 AI 数据中心的主导工作负载。
本文指出,系统级异构性将在数据中心规模上实现内聚集成,并提出两个关键指标:Operational Intensity (OI) 和 Capacity Footprint (CF),用于更好地刻画 AI Agent 推理过程。现有 roofline 模型无法捕捉内存容量限制,我们识别出”内存容量墙”作为新的瓶颈。
1. 问题定义:AI Agent 推理的系统挑战
1.1 推理密集型未来
“我们正在迈向推理密集型的未来——AI Agent 将驱动许多现有和未来应用。”
数据中心趋势:
- 未来几年建设 千兆瓦级 数据中心
- AI Agent 推理成为主导工作负载
- 从训练为主转向推理为主
1.2 异构计算的演进
硬件异构性层次:
- Level 1: 计算异构 (CPU/GPU/NPU/专用芯片)
- Level 2: 内存异构 (HBM/DDR/SRAM/CXL)
- Level 3: 网络异构 (NVLink/InfiniBand/以太网)
- Level 4: 系统级集成 (数据中心规模)
2. 关键指标:OI 和 CF
2.1 Operational Intensity (OI)
“OI: 从 DRAM 移动每字节数据所执行的操作数。”
物理意义:
- 高 OI: 计算密集型
- 低 OI: 内存带宽密集型
2.2 Capacity Footprint (CF)
“CF: LLM 生成中每个 Agent 请求在 DRAM 中所需的字节数。”
对于 KV Cache:
\[CF = 2dL + \frac{md}{B}\]2.3 工作负载特征映射
四个象限:
| 象限 | 特征 | 瓶颈 | 典型工作负载 |
|---|---|---|---|
| 高 OI, 低 CF | 计算密集 | 计算 | Prefill-FFN (高 B) |
| 低 OI, 低 CF | 带宽密集 | 内存带宽 | Decode-FFN (低 B) |
| 高 OI, 高 CF | 计算密集,大内存 | 内存容量 | Prefill-Attention |
| 低 OI, 高 CF | 带宽密集,大内存 | 容量+带宽 | Decode-Attention |
3. 内存容量墙
3.1 现有模型的局限
“在 LLM token 生成服务中,经常观察到即使在达到内存带宽上限之前,FLOPs 就已经很低。”
传统 Roofline 模型:
- 只考虑计算 vs 内存带宽
- 无法解释低 MFU 和低 MBU 同时出现
3.2 内存容量墙
“缺失的维度是内存容量。这也被称为’内存容量墙’。”
表现:
- 系统无法充分利用计算和内存带宽
- 内存容量不足以容纳工作集
- 导致频繁的内存交换或 batch size 受限
4. 影响 OI 和 CF 的因素
4.1 不同 Agentic 工作流
| Agent 类型 | CF 特征 | OI 特征 |
|---|---|---|
| Chatbot | 低 CF | 中等 OI |
| Coding | 高 CF | 低 OI |
| Web-use | 中等 CF | 高 OI |
| Computer-use | 高 CF | 低 OI |
4.2 模型架构影响
- MoE 模型: CF 更高
- Dense 模型: CF 相对较低
- MLA: 降低 CF
5. 异构计算解决方案
5.1 针对不同工作负载的优化
高 OI, 低 CF: 高算力加速器,大 batch size 低 OI, 低 CF: 高带宽内存,内存级并行 高 OI, 高 CF: 分层内存,智能数据放置 低 OI, 高 CF: 异构内存,CXL 扩展
6. 为什么对 AI 硬件重要
6.1 设计范式转变
从统一架构到异构架构:
- 单一 GPU 集群 → 异构计算集群
- 统一内存 → 分层异构内存
- 同质网络 → 异构互连网络
6.2 硬件设计启示
- 内存系统: 需要更大的 HBM 容量或 CXL 扩展
- 计算单元: 针对 OI/CF 特征优化
- 互连网络: 支持异构数据传输
- 调度策略: OI/CF 感知的任务调度
7. 总结
本文识别了 AI Agent 推理的新瓶颈——内存容量墙,并提出了 OI 和 CF 两个关键指标:
- 内存容量墙: 现有 roofline 模型无法捕捉的新瓶颈
- OI/CF 指标: 更精细刻画 AI Agent 推理特征
- 异构计算: 系统级异构是解决方案
- 设计指导: 为下一代 AI 硬件提供设计方向
对于 AI 硬件设计,这意味着:
- 需要更大的内存容量或更智能的内存管理
- 异构计算不再是可选项,而是必需
- 系统设计需要考虑多样化的工作负载特征
参考文献
- Zhao, A., & Liu, J. (2026). Heterogeneous Computing: The Key to Powering the Future of AI Agent Inference. arXiv:2601.22001.
- Williams, S., et al. (2009). Roofline: An Insightful Visual Performance Model for Multicore Architectures. Communications of the ACM.