Research Article
LLM 推理硬件的挑战与研究方向:内存与互连是核心瓶颈
LLM 推理硬件的挑战与研究方向:内存与互连是核心瓶颈
原文链接: arXiv:2601.05047 | PDF
作者: Xiaoyu Ma, David Patterson(加州大学伯克利分校)
DOI: 10.1109/MC.2026.3652916
发布日期: 2026 年 1 月 8 日提交,2026 年 2 月 6 日在线发表
摘要
大语言模型(LLM)推理是困难的。底层 Transformer 模型的自回归解码(Decode)阶段使 LLM 推理与训练根本不同。受近期 AI 趋势加剧的影响,主要挑战是内存和互连而非计算。为应对这些挑战,我们强调了四个架构研究机会:高带宽闪存(High Bandwidth Flash) 实现 10 倍内存容量并具备 HBM 级带宽;近内存处理(Processing-Near-Memory)和 3D 内存 - 逻辑堆叠实现高内存带宽;以及低延迟互连加速通信。尽管我们的重点是数据中心 AI,但我们也回顾了它们在移动设备中的适用性。
1. 问题定义
“LLM 推理与训练根本不同:自回归解码阶段使推理成为内存和互连受限而非计算受限的任务。”
核心挑战:
(1)自回归解码的内存瓶颈:
- Transformer 训练是计算密集型的(矩阵乘法主导)
- LLM 推理的解码阶段是内存带宽密集型的(每个 token 生成都需要访问整个模型权重)
- 随着模型规模增长(从 7B 到 70B 再到 700B),内存需求呈线性增长,而计算需求增长较慢
(2)近期 AI 趋势的加剧效应:
- 模型规模指数增长:从 GPT-3(175B)到 GPT-4(~1T 参数),内存需求增长 5-10 倍
- 长上下文窗口:从 4K 到 128K tokens,KV 缓存内存需求增长 32 倍
- 多租户并发:生产环境需要同时服务数百个请求,进一步放大内存压力
(3)传统架构的局限:
- GPU 主导的推理:针对计算优化,内存带宽相对不足
- HBM 容量受限:当前 HBM3E 单栈最高 36GB,多栈配置成本高昂
- 互连延迟:多 GPU/多节点通信成为分布式推理的瓶颈
关键洞察:
“LLM 推理的主要挑战是内存和互连而非计算。”
2. 四个架构研究方向
2.1 高带宽闪存(High Bandwidth Flash, HBF)
目标:实现 10 倍内存容量,同时保持 HBM 级带宽。
技术原理:
- 3D 堆叠 NAND 闪存:通过硅通孔(TSV)垂直互联多层 NAND die
- 逻辑层集成:底部集成控制器管理并行 I/O 通道
- 共中介层封装:与 HBM 在同一中介层上集成,形成混合内存架构
性能目标: | 指标 | HBM3E | HBF(目标) | 提升 | |——|——-|————-|——| | 容量密度 | 36GB/栈 | 360GB/栈 | 10× | | 读取带宽 | 1.2TB/s | 1.0TB/s | 0.83× | | 延迟 | 纳秒级 | 微秒级 | 1000× | | 成本 | 高 | 中 | 显著降低 |
适用场景:
- 数据中心:存储模型权重、低频 KV 缓存、共享上下文
- 移动设备:扩展片上内存容量,支持更大模型本地部署
挑战:
- 延迟较高(微秒级 vs 纳秒级),需精细的数据预取和调度策略
- 写耐久性限制(约 100,000 次循环),需磨损均衡算法
- 标准化进程:SK 海力士与闪迪在 OCP 框架下推进,预计 2026 年下半年首批样品
2.2 近内存处理(Processing-Near-Memory, PNM)
目标:将计算单元移至内存附近,减少数据移动开销。
技术原理:
- 内存内计算(Processing-in-Memory, PIM):在 DRAM 或 NVM 中集成简单计算逻辑
- 近内存加速:在内存堆栈底部集成专用加速器(如 Tensor Core)
- 3D 堆叠优势:通过 TSV 实现内存与计算单元的紧密耦合,带宽达 TB/s 级
性能优势:
- 减少数据移动:传统架构中 60-80% 能耗消耗在数据搬运,PNM 可显著降低
- 带宽提升:3D 堆叠提供 TB/s 级带宽,远超传统内存接口
- 延迟优化:计算单元与内存紧密耦合,减少访问延迟
适用场景:
- 矩阵 - 向量乘法(GEMV):LLM 解码阶段的核心操作
- 注意力机制:QKV 投影、注意力分数计算
- 量化推理:低比特(INT4/INT8)计算可在内存附近高效执行
挑战:
- 散热管理:3D 堆叠中计算单元产生的热量难以散发
- 制造复杂度:TSV 工艺和异质集成增加制造成本
- 编程模型:需开发新的编程抽象和编译器支持
2.3 3D 内存 - 逻辑堆叠
目标:通过 3D 集成实现内存与计算单元的紧密耦合。
技术原理:
- 晶圆级键合:将内存晶圆与逻辑晶圆直接键合,实现超高密度互连
- 混合键合(Hybrid Bonding):铜 - 铜直接键合,互连间距<1μm
- 多层堆叠:支持 4-8 层堆叠,每层可独立优化(内存层、计算层、缓存层)
性能优势: | 指标 | 2.5D 封装 | 3D 堆叠 | 提升 | |——|———-|——–|——| | 互连密度 | 10⁴/cm² | 10⁶/cm² | 100× | | 带宽 | 500GB/s | 2TB/s | 4× | | 延迟 | 10ns | 2ns | 5× | | 能效 | 10pJ/bit | 1pJ/bit | 10× |
适用场景:
- LLM 推理加速器:将权重存储在内存层,计算单元在逻辑层
- KV 缓存优化:3D 堆叠 SRAM 提供高带宽低延迟缓存
- 边缘设备:小尺寸封装支持高能效推理
挑战:
- 热管理:多层堆叠中热量积聚,需先进散热方案
- 良率问题:多层堆叠良率呈指数下降,成本高昂
- 设计工具:需开发 3D 感知的 EDA 工具和设计方法学
2.4 低延迟互连
目标:加速多 GPU/多节点通信,减少分布式推理延迟。
技术原理:
- 片上网络(Network-on-Chip, NoC):优化芯片内多核通信
- 芯片间互连:NVLink、UCIe 等高速接口,带宽>100GB/s
- 节点间互连:InfiniBand、RoCE 等,延迟<1μs
性能要求: | 场景 | 带宽需求 | 延迟要求 | 当前水平 | 缺口 | |——|———-|———-|———-|——| | 单 GPU 内 | 2TB/s | <10ns | 1TB/s | 2× | | 多 GPU(同节点) | 500GB/s | <100ns | 200GB/s | 2.5× | | 多节点 | 100GB/s | <1μs | 50GB/s, 5μs | 2-5× |
适用场景:
- 张量并行:大模型切分到多 GPU,需频繁通信
- 流水线并行:层间数据传递,延迟敏感
- 专家混合(MoE):动态路由到不同专家,通信模式复杂
挑战:
- 协议开销:现有网络协议(如 TCP/IP)开销大,需专用协议
- 拓扑优化:网状、环状、树状拓扑的选择影响通信效率
- 拥塞控制:多租户场景下需公平调度,避免拥塞
3. 移动设备适用性
“尽管我们的重点是数据中心 AI,但这些技术在移动设备中同样具有适用性。”
3.1 移动场景的特殊约束
| 约束 | 数据中心 | 移动设备 | 影响 |
|---|---|---|---|
| 功耗 | 100-1000W | 1-10W | 100-1000× 限制 |
| 散热 | 主动液冷 | 被动散热 | 热预算严格 |
| 面积 | 500-1000mm² | 50-100mm² | 10× 限制 |
| 成本 | $10,000+ | $100-500 | 20-100× 限制 |
3.2 技术适用性分析
(1)高带宽闪存(HBF):
- 适用性:高
- 优势:容量密度高,成本低于 HBM,适合移动设备有限预算
- 挑战:微秒级延迟可能影响实时交互体验,需预取优化
(2)近内存处理(PNM):
- 适用性:中 - 高
- 优势:减少数据移动,降低功耗,适合电池供电设备
- 挑战:散热管理,需限制峰值功耗
(3)3D 内存 - 逻辑堆叠:
- 适用性:中
- 优势:小尺寸封装,高带宽低延迟
- 挑战:成本高,可能仅适用于高端旗舰设备
(4)低延迟互连:
- 适用性:低 - 中
- 优势:多核 SoC 内通信优化
- 挑战:移动设备通常单芯片,多节点互连需求低
3.3 移动 LLM 推理优化策略
模型优化:
- 量化:INT4/INT8 量化减少内存占用和带宽需求
- 剪枝:结构化剪枝减少计算量和内存访问
- 蒸馏:小模型蒸馏大模型知识,适合移动部署
系统优化:
- 异构计算:CPU+NPU+GPU 协同,任务调度优化
- 内存分层:SRAM(热数据)+ LPDDR(温数据)+ 存储(冷数据)
- 增量推理:利用上下文局部性,减少重复计算
4. 技术可行性评估
可行性分析
| 技术方向 | 技术成熟度 | 性能收益 | 成本效益 | 商业化时间 |
|---|---|---|---|---|
| HBF | [MEDIUM] | [HIGH] | [HIGH] | 2026-2027 |
| PNM | [MEDIUM] | [HIGH] | [MEDIUM] | 2027-2028 |
| 3D 堆叠 | [MEDIUM-HIGH] | [HIGH] | [MEDIUM] | 2026-2028 |
| 低延迟互连 | [HIGH] | [MEDIUM] | [HIGH] | 2025-2026 |
风险与挑战
技术风险:
- HBF 延迟(微秒级)远高于 HBM(纳秒级),需精细的数据预取和调度策略
- 3D 堆叠散热复杂,尤其是近内存处理中计算单元产生的热量
- 制造良率问题,多层堆叠良率呈指数下降
工程挑战:
- 编程模型和编译器支持需同步发展
- 与现有软件栈(如 PyTorch、TensorFlow)的兼容性
- 系统级集成和验证复杂度
商业化不确定性:
- 市场需求与成本的平衡
- 生态系统建设(工具链、开发社区)
- 与竞品技术(如 CXL、Mobile HBM)的竞争
5. 总结
本文系统性地分析了 LLM 推理硬件面临的核心挑战,指出内存和互连而非计算是主要瓶颈。受近期 AI 趋势(模型规模增长、长上下文窗口、多租户并发)加剧的影响,传统 GPU 主导的架构已难以满足需求。
为应对这些挑战,作者强调了四个架构研究方向:
- 高带宽闪存(HBF):实现 10 倍内存容量,同时保持 HBM 级带宽
- 近内存处理(PNM)和 3D 内存 - 逻辑堆叠:减少数据移动,提供 TB/s 级带宽
- 低延迟互连:加速多 GPU/多节点通信
这些技术在数据中心和移动设备中均具有适用性,但需根据具体场景的功耗、散热、面积和成本约束进行优化。预计 2026-2028 年间,这些技术将逐步商业化,为 LLM 推理提供更高能效和更低成本的硬件平台。
未来研究可能包括:HBF 原型验证、3D 堆叠散热优化、近内存处理编程模型、以及面向 LLM 工作负载的专用互连协议设计。
参考文献
[1] Ma, X., & Patterson, D. (2026). Challenges and Research Directions for Large Language Model Inference Hardware. IEEE Computer. https://doi.org/10.1109/MC.2026.3652916
[2] SK Hynix. (2025). H³ (Hybrid Memory Architecture) for AI Inference. OCP Global Summit 2025.
[3] Nvidia. (2025). HBM3E Memory Solutions for AI Accelerators. Technical Brief.
[4] Samsung. (2025). HBM4: Next-Generation High Bandwidth Memory. ISSCC 2025.
[5] Nvidia Corporation. (2024). Jetson AGX Thor Technical Specifications. Developer Documentation.
[6] Wang, W., et al. (2025). ROMA: A Read-Only-Memory-Based Accelerator for QLoRA-Based On-Device LLM. arXiv preprint arXiv:2503.12988.
[7] Guan, H., et al. (2026). TOM: A Ternary Read-Only Memory Accelerator for LLM-Powered Edge Intelligence. arXiv preprint arXiv:2602.20662.
[8] Lin, T., et al. (2025). LEGOSim: A Unified Parallel Simulation Framework for Multi-Chiplet Heterogeneous Integration. MICRO ‘25.
[9] Gunawardana, K., et al. (2026). SNAP-V: A RISC-V SoC with Configurable Neuromorphic Acceleration for Small-Scale Spiking Neural Networks. arXiv preprint arXiv:2603.11939.
[10] Hossain, E., et al. (2025). MedBayes-Lite: Bayesian Uncertainty Quantification for Safe Clinical Decision Support. arXiv preprint arXiv:2511.16625.
本文基于 arXiv:2601.05047 论文自动生成,采用 paper_to_blog 工作流转换。