原文: arXiv:2411.05282 | PDF
会议: ISCA 2025, Tokyo, Japan
作者: Akshat Ramachandran, Souvik Kundu, Tushar Krishna
机构: Georgia Institute of Technology, Intel Labs
核心贡献: 异常值感知微缩放量化 + 剪枝协同设计,实现高精度、低硬件开销的 LLM 加速


摘要

基础模型(FMs)的量化比传统 DNN 更具挑战性,原因在于异常值(outliers)的出现——这些大数值特征会显著影响量化精度。现有的异常值感知算法-架构协同设计技术面临两难选择:

  • 方案 A: 混合精度,异常值保持高精度 → 硬件效率低
  • 方案 B: 异常值与正常值同精度量化 → 精度损失大

本文提出 MicroScopiQ,一种新颖的协同设计技术,利用剪枝来补充异常值感知量化:

  • 异常值保持较高精度
  • 剪除一部分最不重要的权重来分配额外的异常值比特位
  • 确保高精度、对齐内存和硬件效率

实验结果: 相比现有方法,MicroScopiQ 实现高达 3 倍推理加速2 倍能耗降低


1. 问题定义:基础模型量化的异常值挑战

1.1 异常值问题的本质

“量化 LLM 比量化传统 DNN 更具挑战性,原因在于大数值特征的出现,即异常值。”

异常值的影响:

  • 显著影响模型精度
  • 需要特殊处理机制
  • 相比正常值(inliers)更难量化

1.2 现有方法的局限性

方法类别 代表工作 精度 有效位宽 内存对齐 硬件开销
Group A OWQ, SpQR, SDQ, GOBO, OLAccel 高 (18-17b) 非对齐
Group B 同精度量化 低 (2b) 对齐 中等
MicroScopiQ 本文 低 (2.36b) 对齐

Group A 的问题:

  • 低压缩率(高有效位宽)
  • 非对齐内存访问
  • 复杂的处理元素(PE)设计

Group B 的问题:

  • 显著的精度下降
  • 无法有效处理异常值

2. MicroScopiQ 方法框架

2.1 核心思想:剪枝 + 异常值感知量化

┌─────────────────────────────────────────────────────────────┐
│                MicroScopiQ 协同设计框架                      │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  输入: 预训练 FM (LLM/VLM)                                   │
│                     ↓                                        │
│  ┌─────────────────────────────────────────┐                │
│  │  Step 1: 异常值识别与分离              │                │
│  │  - 识别大数值异常值                    │                │
│  │  - 分离异常值和正常值                  │                │
│  └─────────────────────────────────────────┘                │
│                     ↓                                        │
│  ┌─────────────────────────────────────────┐                │
│  │  Step 2: 剪枝分配比特位                │                │
│  │  - 剪除最不重要的权重                  │                │
│  │  - 释放比特位给异常值                  │                │
│  └─────────────────────────────────────────┘                │
│                     ↓                                        │
│  ┌─────────────────────────────────────────┐                │
│  │  Step 3: 微缩放量化                    │                │
│  │  - 异常值: 较高精度 (e.g., 4-6b)       │                │
│  │  - 正常值: 较低精度 (e.g., 2b)         │                │
│  │  - 对齐内存布局                        │                │
│  └─────────────────────────────────────────┘                │
│                     ↓                                        │
│  输出: 量化模型 + 硬件加速器配置                             │
│                                                              │
└─────────────────────────────────────────────────────────────┘

2.2 关键技术特点

1. 不假设异常值局部性

  • 与先前技术不同,MicroScopiQ 不假设异常值权重具有局部性
  • 适用于广泛的基础模型

2. 对齐内存访问

  • 内存布局对齐,提高硬件效率
  • 避免非对齐访问的开销

3. 简单 PE 设计

  • 处理元素设计简单,硬件开销低
  • 支持多精度 INT 运算

3. 硬件架构设计

3.1 ReCoN 网络架构

加速器组成:

  • 多精度 INT 处理元素: 支持不同精度级别的整数运算
  • ReCoN(Network-on-Chip): 高效抽象支持高精度异常值的复杂性

设计目标:

  • 高吞吐量
  • 低硬件开销
  • 灵活的多精度支持

3.2 与现有技术对比

特性 Group A Group B MicroScopiQ
精度
有效位宽 18-17b 2b 2.36b
灵活性
内存对齐 非对齐 对齐 对齐
PE 设计 复杂 复杂 简单
硬件开销 中等

4. 实验结果

4.1 量化精度

MicroScopiQ 在多种量化设置下实现最先进的量化精度

4.2 性能提升

指标 提升
推理速度 高达 3 倍 加速
能耗 2 倍 降低

4.3 跨模型验证

实验验证了 MicroScopiQ 在多种基础模型上的有效性:

  • 大语言模型(LLMs)
  • 视觉-语言模型(VLMs)
  • 不同规模和架构的模型

5. 为什么对 AI 硬件重要

5.1 算法-硬件协同设计的价值

MicroScopiQ 展示了协同设计的优势:

┌─────────────────────────────────────────────────────────────┐
│           传统分离设计 vs MicroScopiQ 协同设计               │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  传统分离设计:                                               │
│  ├─ 算法: 追求精度 → 混合精度 → 硬件复杂                     │
│  ├─ 硬件: 追求效率 → 统一精度 → 精度损失                     │
│  └─ 结果: 精度与效率的权衡                                   │
│                                                              │
│  MicroScopiQ 协同设计:                                       │
│  ├─ 算法: 剪枝 + 异常值感知 → 释放灵活性                     │
│  ├─ 硬件: 简单 PE + 对齐内存 → 高效率                        │
│  └─ 结果: 高精度 + 高效率 + 低硬件开销                       │
│                                                              │
└─────────────────────────────────────────────────────────────┘

5.2 对边缘部署的启示

边缘 AI 的关键需求:

  • 低内存占用
  • 高能效
  • 高推理速度
  • 可接受的精度

MicroScopiQ 的优势:

  • 低有效位宽(2.36b)→ 低内存
  • 对齐内存 → 高效访问
  • 简单 PE → 低功耗
  • 高精度 → 可用性

5.3 硬件设计启示

1. 多精度支持:

  • 灵活的精度配置
  • 支持异常值的高精度处理
  • 正常值的低精度处理

2. 内存系统:

  • 对齐访问的重要性
  • 混合精度数据的布局策略

3. 计算单元:

  • 简单 PE 设计的价值
  • 避免复杂的特殊处理逻辑

6. 局限与未来方向

6.1 当前局限

  • 剪枝率: 需要在剪枝率和精度间权衡
  • 异常值检测: 需要有效的异常值识别机制
  • 硬件验证: 主要基于仿真,实际芯片验证待完成

6.2 未来方向

算法优化:

  • 自适应异常值阈值
  • 动态精度调整
  • 与其他压缩技术结合

硬件扩展:

  • 支持更多模型架构
  • 扩展到训练阶段量化
  • 边缘设备专用优化

7. 总结

MicroScopiQ 代表了基础模型量化的重要进展:

  1. 协同设计: 剪枝 + 异常值感知量化的创新组合
  2. 高精度: 保持 Group A 级别的精度
  3. 高效率: 有效位宽接近 Group B(2.36b)
  4. 低硬件开销: 简单 PE 设计,对齐内存访问
  5. 实际收益: 3 倍加速,2 倍能耗降低

对于 AI 硬件设计,MicroScopiQ 表明:

  • 算法-硬件协同是突破精度-效率权衡的关键
  • 剪枝可以作为量化的补充,释放额外的灵活性
  • 简单性在硬件设计中具有重要价值
  • 对齐和局部性优化对实际性能至关重要

随着基础模型规模持续增长,MicroScopiQ 的设计原则将在高效边缘部署和数据中心推理中发挥重要作用。


参考文献

  1. Ramachandran, A., Kundu, S., & Krishna, T. (2025). MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization. ISCA 2025.
  2. Dettmers, T., et al. (2022). LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. NeurIPS.
  3. Frantar, E., et al. (2022). GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. ICLR.
  4. Xiao, G., et al. (2023). SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models. ICML.