Research Article
MicroScopiQ: 通过异常值感知微缩放量化加速基础模型
原文: arXiv:2411.05282 | PDF
会议: ISCA 2025, Tokyo, Japan
作者: Akshat Ramachandran, Souvik Kundu, Tushar Krishna
机构: Georgia Institute of Technology, Intel Labs
核心贡献: 异常值感知微缩放量化 + 剪枝协同设计,实现高精度、低硬件开销的 LLM 加速
摘要
基础模型(FMs)的量化比传统 DNN 更具挑战性,原因在于异常值(outliers)的出现——这些大数值特征会显著影响量化精度。现有的异常值感知算法-架构协同设计技术面临两难选择:
- 方案 A: 混合精度,异常值保持高精度 → 硬件效率低
- 方案 B: 异常值与正常值同精度量化 → 精度损失大
本文提出 MicroScopiQ,一种新颖的协同设计技术,利用剪枝来补充异常值感知量化:
- 异常值保持较高精度
- 剪除一部分最不重要的权重来分配额外的异常值比特位
- 确保高精度、对齐内存和硬件效率
实验结果: 相比现有方法,MicroScopiQ 实现高达 3 倍推理加速 和 2 倍能耗降低。
1. 问题定义:基础模型量化的异常值挑战
1.1 异常值问题的本质
“量化 LLM 比量化传统 DNN 更具挑战性,原因在于大数值特征的出现,即异常值。”
异常值的影响:
- 显著影响模型精度
- 需要特殊处理机制
- 相比正常值(inliers)更难量化
1.2 现有方法的局限性
| 方法类别 | 代表工作 | 精度 | 有效位宽 | 内存对齐 | 硬件开销 |
|---|---|---|---|---|---|
| Group A | OWQ, SpQR, SDQ, GOBO, OLAccel | 高 | 高 (18-17b) | 非对齐 | 高 |
| Group B | 同精度量化 | 低 | 低 (2b) | 对齐 | 中等 |
| MicroScopiQ | 本文 | 高 | 低 (2.36b) | 对齐 | 低 |
Group A 的问题:
- 低压缩率(高有效位宽)
- 非对齐内存访问
- 复杂的处理元素(PE)设计
Group B 的问题:
- 显著的精度下降
- 无法有效处理异常值
2. MicroScopiQ 方法框架
2.1 核心思想:剪枝 + 异常值感知量化
┌─────────────────────────────────────────────────────────────┐
│ MicroScopiQ 协同设计框架 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 输入: 预训练 FM (LLM/VLM) │
│ ↓ │
│ ┌─────────────────────────────────────────┐ │
│ │ Step 1: 异常值识别与分离 │ │
│ │ - 识别大数值异常值 │ │
│ │ - 分离异常值和正常值 │ │
│ └─────────────────────────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────┐ │
│ │ Step 2: 剪枝分配比特位 │ │
│ │ - 剪除最不重要的权重 │ │
│ │ - 释放比特位给异常值 │ │
│ └─────────────────────────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────┐ │
│ │ Step 3: 微缩放量化 │ │
│ │ - 异常值: 较高精度 (e.g., 4-6b) │ │
│ │ - 正常值: 较低精度 (e.g., 2b) │ │
│ │ - 对齐内存布局 │ │
│ └─────────────────────────────────────────┘ │
│ ↓ │
│ 输出: 量化模型 + 硬件加速器配置 │
│ │
└─────────────────────────────────────────────────────────────┘
2.2 关键技术特点
1. 不假设异常值局部性
- 与先前技术不同,MicroScopiQ 不假设异常值权重具有局部性
- 适用于广泛的基础模型
2. 对齐内存访问
- 内存布局对齐,提高硬件效率
- 避免非对齐访问的开销
3. 简单 PE 设计
- 处理元素设计简单,硬件开销低
- 支持多精度 INT 运算
3. 硬件架构设计
3.1 ReCoN 网络架构
加速器组成:
- 多精度 INT 处理元素: 支持不同精度级别的整数运算
- ReCoN(Network-on-Chip): 高效抽象支持高精度异常值的复杂性
设计目标:
- 高吞吐量
- 低硬件开销
- 灵活的多精度支持
3.2 与现有技术对比
| 特性 | Group A | Group B | MicroScopiQ |
|---|---|---|---|
| 精度 | 高 | 低 | 高 |
| 有效位宽 | 18-17b | 2b | 2.36b |
| 灵活性 | 否 | 否 | 是 |
| 内存对齐 | 非对齐 | 对齐 | 对齐 |
| PE 设计 | 复杂 | 复杂 | 简单 |
| 硬件开销 | 高 | 中等 | 低 |
4. 实验结果
4.1 量化精度
MicroScopiQ 在多种量化设置下实现最先进的量化精度。
4.2 性能提升
| 指标 | 提升 |
|---|---|
| 推理速度 | 高达 3 倍 加速 |
| 能耗 | 2 倍 降低 |
4.3 跨模型验证
实验验证了 MicroScopiQ 在多种基础模型上的有效性:
- 大语言模型(LLMs)
- 视觉-语言模型(VLMs)
- 不同规模和架构的模型
5. 为什么对 AI 硬件重要
5.1 算法-硬件协同设计的价值
MicroScopiQ 展示了协同设计的优势:
┌─────────────────────────────────────────────────────────────┐
│ 传统分离设计 vs MicroScopiQ 协同设计 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 传统分离设计: │
│ ├─ 算法: 追求精度 → 混合精度 → 硬件复杂 │
│ ├─ 硬件: 追求效率 → 统一精度 → 精度损失 │
│ └─ 结果: 精度与效率的权衡 │
│ │
│ MicroScopiQ 协同设计: │
│ ├─ 算法: 剪枝 + 异常值感知 → 释放灵活性 │
│ ├─ 硬件: 简单 PE + 对齐内存 → 高效率 │
│ └─ 结果: 高精度 + 高效率 + 低硬件开销 │
│ │
└─────────────────────────────────────────────────────────────┘
5.2 对边缘部署的启示
边缘 AI 的关键需求:
- 低内存占用
- 高能效
- 高推理速度
- 可接受的精度
MicroScopiQ 的优势:
- 低有效位宽(2.36b)→ 低内存
- 对齐内存 → 高效访问
- 简单 PE → 低功耗
- 高精度 → 可用性
5.3 硬件设计启示
1. 多精度支持:
- 灵活的精度配置
- 支持异常值的高精度处理
- 正常值的低精度处理
2. 内存系统:
- 对齐访问的重要性
- 混合精度数据的布局策略
3. 计算单元:
- 简单 PE 设计的价值
- 避免复杂的特殊处理逻辑
6. 局限与未来方向
6.1 当前局限
- 剪枝率: 需要在剪枝率和精度间权衡
- 异常值检测: 需要有效的异常值识别机制
- 硬件验证: 主要基于仿真,实际芯片验证待完成
6.2 未来方向
算法优化:
- 自适应异常值阈值
- 动态精度调整
- 与其他压缩技术结合
硬件扩展:
- 支持更多模型架构
- 扩展到训练阶段量化
- 边缘设备专用优化
7. 总结
MicroScopiQ 代表了基础模型量化的重要进展:
- 协同设计: 剪枝 + 异常值感知量化的创新组合
- 高精度: 保持 Group A 级别的精度
- 高效率: 有效位宽接近 Group B(2.36b)
- 低硬件开销: 简单 PE 设计,对齐内存访问
- 实际收益: 3 倍加速,2 倍能耗降低
对于 AI 硬件设计,MicroScopiQ 表明:
- 算法-硬件协同是突破精度-效率权衡的关键
- 剪枝可以作为量化的补充,释放额外的灵活性
- 简单性在硬件设计中具有重要价值
- 对齐和局部性优化对实际性能至关重要
随着基础模型规模持续增长,MicroScopiQ 的设计原则将在高效边缘部署和数据中心推理中发挥重要作用。
参考文献
- Ramachandran, A., Kundu, S., & Krishna, T. (2025). MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization. ISCA 2025.
- Dettmers, T., et al. (2022). LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. NeurIPS.
- Frantar, E., et al. (2022). GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. ICLR.
- Xiao, G., et al. (2023). SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models. ICML.