Research Article

MicroScopiQ: 通过异常值感知微缩放量化加速基础模型

April 07, 2026 · paper, quantization, llm, hardware-acceleration, isca

Rate this article:

0.0 (0 votes)

原文: arXiv:2411.05282 | PDF
会议: ISCA 2025, Tokyo, Japan
作者: Akshat Ramachandran, Souvik Kundu, Tushar Krishna
机构: Georgia Institute of Technology, Intel Labs
核心贡献: 异常值感知微缩放量化 + 剪枝协同设计，实现高精度、低硬件开销的 LLM 加速

摘要

基础模型（FMs）的量化比传统 DNN 更具挑战性，原因在于异常值（outliers）的出现——这些大数值特征会显著影响量化精度。现有的异常值感知算法-架构协同设计技术面临两难选择：

方案 A: 混合精度，异常值保持高精度 → 硬件效率低
方案 B: 异常值与正常值同精度量化 → 精度损失大

本文提出 MicroScopiQ，一种新颖的协同设计技术，利用剪枝来补充异常值感知量化：

异常值保持较高精度
剪除一部分最不重要的权重来分配额外的异常值比特位
确保高精度、对齐内存和硬件效率

实验结果: 相比现有方法，MicroScopiQ 实现高达 3 倍推理加速 和 2 倍能耗降低。

1. 问题定义：基础模型量化的异常值挑战

1.1 异常值问题的本质

“量化 LLM 比量化传统 DNN 更具挑战性，原因在于大数值特征的出现，即异常值。”

异常值的影响:

显著影响模型精度
需要特殊处理机制
相比正常值（inliers）更难量化

1.2 现有方法的局限性

方法类别	代表工作	精度	有效位宽	内存对齐	硬件开销
Group A	OWQ, SpQR, SDQ, GOBO, OLAccel	高	高 (18-17b)	非对齐	高
Group B	同精度量化	低	低 (2b)	对齐	中等
MicroScopiQ	本文	高	低 (2.36b)	对齐	低

Group A 的问题:

低压缩率（高有效位宽）
非对齐内存访问
复杂的处理元素（PE）设计

Group B 的问题:

显著的精度下降
无法有效处理异常值

2. MicroScopiQ 方法框架

2.1 核心思想：剪枝 + 异常值感知量化

┌─────────────────────────────────────────────────────────────┐
│                MicroScopiQ 协同设计框架                      │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  输入: 预训练 FM (LLM/VLM)                                   │
│                     ↓                                        │
│  ┌─────────────────────────────────────────┐                │
│  │  Step 1: 异常值识别与分离              │                │
│  │  - 识别大数值异常值                    │                │
│  │  - 分离异常值和正常值                  │                │
│  └─────────────────────────────────────────┘                │
│                     ↓                                        │
│  ┌─────────────────────────────────────────┐                │
│  │  Step 2: 剪枝分配比特位                │                │
│  │  - 剪除最不重要的权重                  │                │
│  │  - 释放比特位给异常值                  │                │
│  └─────────────────────────────────────────┘                │
│                     ↓                                        │
│  ┌─────────────────────────────────────────┐                │
│  │  Step 3: 微缩放量化                    │                │
│  │  - 异常值: 较高精度 (e.g., 4-6b)       │                │
│  │  - 正常值: 较低精度 (e.g., 2b)         │                │
│  │  - 对齐内存布局                        │                │
│  └─────────────────────────────────────────┘                │
│                     ↓                                        │
│  输出: 量化模型 + 硬件加速器配置                             │
│                                                              │
└─────────────────────────────────────────────────────────────┘

2.2 关键技术特点

1. 不假设异常值局部性

与先前技术不同，MicroScopiQ 不假设异常值权重具有局部性
适用于广泛的基础模型

2. 对齐内存访问

内存布局对齐，提高硬件效率
避免非对齐访问的开销

3. 简单 PE 设计

处理元素设计简单，硬件开销低
支持多精度 INT 运算

3. 硬件架构设计

3.1 ReCoN 网络架构

加速器组成:

多精度 INT 处理元素: 支持不同精度级别的整数运算
ReCoN（Network-on-Chip）: 高效抽象支持高精度异常值的复杂性

设计目标:

高吞吐量
低硬件开销
灵活的多精度支持

3.2 与现有技术对比

特性	Group A	Group B	MicroScopiQ
精度	高	低	高
有效位宽	18-17b	2b	2.36b
灵活性	否	否	是
内存对齐	非对齐	对齐	对齐
PE 设计	复杂	复杂	简单
硬件开销	高	中等	低

4. 实验结果

4.1 量化精度

MicroScopiQ 在多种量化设置下实现最先进的量化精度。

4.2 性能提升

指标	提升
推理速度	高达 3 倍加速
能耗	2 倍降低

4.3 跨模型验证

实验验证了 MicroScopiQ 在多种基础模型上的有效性：

大语言模型（LLMs）
视觉-语言模型（VLMs）
不同规模和架构的模型

5. 为什么对 AI 硬件重要

5.1 算法-硬件协同设计的价值

MicroScopiQ 展示了协同设计的优势：

┌─────────────────────────────────────────────────────────────┐
│           传统分离设计 vs MicroScopiQ 协同设计               │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  传统分离设计:                                               │
│  ├─ 算法: 追求精度 → 混合精度 → 硬件复杂                     │
│  ├─ 硬件: 追求效率 → 统一精度 → 精度损失                     │
│  └─ 结果: 精度与效率的权衡                                   │
│                                                              │
│  MicroScopiQ 协同设计:                                       │
│  ├─ 算法: 剪枝 + 异常值感知 → 释放灵活性                     │
│  ├─ 硬件: 简单 PE + 对齐内存 → 高效率                        │
│  └─ 结果: 高精度 + 高效率 + 低硬件开销                       │
│                                                              │
└─────────────────────────────────────────────────────────────┘

5.2 对边缘部署的启示

边缘 AI 的关键需求:

低内存占用
高能效
高推理速度
可接受的精度

MicroScopiQ 的优势:

低有效位宽（2.36b）→ 低内存
对齐内存 → 高效访问
简单 PE → 低功耗
高精度 → 可用性

5.3 硬件设计启示

1. 多精度支持:

灵活的精度配置
支持异常值的高精度处理
正常值的低精度处理

2. 内存系统:

对齐访问的重要性
混合精度数据的布局策略

3. 计算单元:

简单 PE 设计的价值
避免复杂的特殊处理逻辑

6. 局限与未来方向

6.1 当前局限

剪枝率: 需要在剪枝率和精度间权衡
异常值检测: 需要有效的异常值识别机制
硬件验证: 主要基于仿真，实际芯片验证待完成

6.2 未来方向

算法优化:

自适应异常值阈值
动态精度调整
与其他压缩技术结合

硬件扩展:

支持更多模型架构
扩展到训练阶段量化
边缘设备专用优化

7. 总结

MicroScopiQ 代表了基础模型量化的重要进展：

协同设计: 剪枝 + 异常值感知量化的创新组合
高精度: 保持 Group A 级别的精度
高效率: 有效位宽接近 Group B（2.36b）
低硬件开销: 简单 PE 设计，对齐内存访问
实际收益: 3 倍加速，2 倍能耗降低

对于 AI 硬件设计，MicroScopiQ 表明：

算法-硬件协同是突破精度-效率权衡的关键
剪枝可以作为量化的补充，释放额外的灵活性
简单性在硬件设计中具有重要价值
对齐和局部性优化对实际性能至关重要

随着基础模型规模持续增长，MicroScopiQ 的设计原则将在高效边缘部署和数据中心推理中发挥重要作用。

参考文献

Ramachandran, A., Kundu, S., & Krishna, T. (2025). MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization. ISCA 2025.
Dettmers, T., et al. (2022). LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. NeurIPS.
Frantar, E., et al. (2022). GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. ICLR.
Xiao, G., et al. (2023). SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models. ICML.