Research Article
AA-DiT: Algorithm-Architecture Co-Design for Diffusion Transformer Acceleration
AA-DiT: Algorithm-Architecture Co-Design for Diffusion Transformer Acceleration
原文链接: IEEE TCAD 2026 Authors: Siqi Li, Flavio Ponzina, Tajana Rosing (UC San Diego, SDSU)
摘要
AA-DiT 是一种面向 Diffusion Transformer (DiT) 的算法-架构协同设计加速器,通过挖掘 DiT 执行中的多级空间和时间相似性,实现了高达 6.7 倍 的端到端加速。论文提出了静态/动态混合注意力算法,能够在运行时检测并跳过不必要的计算;同时利用跨时间步的中间结果复用,显著降低计算负担。在 7nm 工艺下,AA-DiT 仅需 27.97 mm² 面积(仅为 A100 GPU 的 3.39%),相比 A100 GPU、ViTCoD 和 Cambricon-D 等基线实现了显著的性能和能效提升。
1. 问题定义:Diffusion Transformer 的加速挑战
1.1 DiT 的崛起与计算瓶颈
Diffusion Transformer (DiT) 正在成为 AIGC 领域的主流架构:
“The backbone of diffusion models is currently shifting from U-Net-based CNNs to Diffusion Transformers (DiTs) in order to achieve better generative quality and scalability.”
DiT 的优势:
- 更好的生成质量和可扩展性
- 已应用于 Sora、Stable Diffusion 3 等前沿产品
- 强大的长距离依赖建模能力
但计算挑战严峻:
- 迭代去噪过程需要多个时间步(通常 50-1000 步)
- 每个时间步包含大规模 Transformer 计算
- 在 A100 GPU 上生成 512×512 图像需要 超过 10 秒
1.2 现有加速方案的局限
| 方案类型 | 代表工作 | 局限 |
|---|---|---|
| NLP Transformer 加速器 | ViTCoD | 不考虑扩散模型的迭代特性 |
| 扩散模型加速器 | Cambricon-D | 仅利用时间相似性,未充分探索算法-架构协同设计空间 |
| 静态稀疏注意力 | BigBird, Longformer | 无法捕获动态全局信息 |
| 动态稀疏注意力 | DSA | 需要大量训练/微调开销 |
核心问题: 缺乏针对 DiT 独特特性的系统性加速方案
1.3 多级相似性的发现
论文通过系统分析 DiT 模型结构和计算过程,发现了两类关键相似性:
空间相似性 (Spatial Similarity):
- 多头注意力中,高注意力分数集中在对角线和特定垂直带
- 表明不同注意力头分别负责局部细节和全局结构
时间相似性 (Temporal Similarity):
- 相邻时间步的注意力图和 MLP 输出具有显著相似性
- 贯穿迭代计算的多个模块
2. AA-DiT 算法设计
2.1 静态/动态混合注意力算法
基于空间相似性的观察,论文提出了创新的混合注意力机制:
核心洞察:
“Important attention scores tend to cluster along a static diagonal region and a set of dynamic columns.”
算法设计:
┌─────────────────────────────────────────────────────────────┐
│ Static/Dynamic Hybrid Attention │
├─────────────────────────────────────────────────────────────┤
│ │
│ Attention Map Pattern: │
│ ┌─────────────────────────────────────┐ │
│ │ ████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ │ Static Diagonal │
│ │ ░░███░░░░░░░░░░░░░░█░░░░░░░░░░░░░░░ │ (Always kept) │
│ │ ░░░██░░░░░░░░░░░░░██░░░░░░░░░░░░░░░ │ │
│ │ ░░░░█░░░░░░░░░░░░░██░░░░░░░░░░░░░░░ │ Dynamic Columns │
│ │ ░░░░░░░░░░░░░░░░░░█░░░░░░░░░░░░░░░░ │ (Runtime sel.) │
│ │ ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ │ │
│ └─────────────────────────────────────┘ │
│ │
│ Compute Flow: │
│ 1. Static part: Predefined diagonal pattern │
│ 2. Dynamic part: Runtime screening of important columns │
│ 3. Skip: Low-importance attention scores │
│ │
└─────────────────────────────────────────────────────────────┘
关键优势:
- 无需重训练: 可直接应用于各种 DiT 模型
- 细粒度: 在运行时动态选择重要计算
- 硬件友好: 轻量级筛选机制
2.2 跨时间步中间结果复用
利用时间相似性,论文提出了全面的中间结果复用策略:
复用范围:
- 注意力模块: 复用前一时间步的注意力图
- MLP 模块: 复用前一时间步的 MLP 输出
复用机制:
Timestep N: Compute full Attention(Q, K, V) → Store
↓
Timestep N-1: Reuse stored attention where similar
Compute only changed parts
↓
Timestep N-2: Continue reuse with update
质量保证:
- 相似性阈值控制,确保生成质量不下降
- 自适应复用策略,根据内容动态调整
3. AA-DiT 架构设计
3.1 跨层级协同设计
算法创新带来了三个架构挑战,论文提出了系统性的解决方案:
挑战 1: 运行时动态检测的硬件支持
- 解决方案: 轻量级硬件筛选单元
- 开销: 仅占总面积 0.008%,总功耗 0.1%
挑战 2: 不规则计算和内存访问模式
- 解决方案: 块级聚集数据流 (Block-wise Gathering Dataflow)
- 效果: 缓解混合注意力引起的不规则性
挑战 3: 复用算法的高效调度
- 解决方案: 复用感知调度机制
- 效果: 重叠数据移动和计算,最小化延迟
3.2 硬件架构概览
┌─────────────────────────────────────────────────────────────┐
│ AA-DiT Accelerator │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ PE Array │◄──►│ Screening │◄──►│ SFU │ │
│ │ (1.52mm²) │ │ (0.0022mm²)│ │ (0.064mm²) │ │
│ │ 7759.87mW │ │ 13.68mW │ │ 337.28mW │ │
│ └──────┬──────┘ └─────────────┘ └─────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ Memory Hierarchy │ │
│ │ ┌───────────────┐ ┌───────────────┐ │ │
│ │ │ Activation │ │ Weight SRAM │ │ │
│ │ │ SRAM (15.83mm²)│ │ (10.55mm²) │ │ │
│ │ │ 2856.69mW │ │ 1904.46mW │ │ │
│ │ └───────────────┘ └───────────────┘ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ Total: 27.97 mm², 12871.98 mW (7nm technology) │
│ │
└─────────────────────────────────────────────────────────────┘
3.3 关键硬件组件
1. 轻量级筛选单元 (Screening Unit):
- 面积: 0.0022 mm² (几乎可以忽略)
- 功耗: 13.68 mW (总功耗的 0.1%)
- 功能: 运行时检测注意力分数重要性
2. 块级聚集数据流:
- 处理混合注意力引起的不规则访问
- 优化内存带宽利用率
- 支持动态稀疏模式的高效执行
3. 复用感知调度器:
- 协调跨时间步的数据复用
- 重叠计算和数据移动
- 最小化端到端延迟
4. 实验结果
4.1 端到端性能
AA-DiT 在多个 DiT 模型上进行了评估:
| 基线 | 平均加速比 | 备注 |
|---|---|---|
| A100 GPU | 6.73× | 最先进的 GPU |
| Cambricon-D | 2.55× | 专用扩散模型加速器 |
| ViTCoD | 1.85× | 专用 Transformer 加速器 |
分解分析:
| 模块 | vs Cambricon-D | vs ViTCoD |
|---|---|---|
| Attention | 2.3× | 1.46× |
| MLP | 2.12× | 1.92× |
4.2 能效分析
| 指标 | vs Cambricon-D | vs ViTCoD |
|---|---|---|
| 能效提升 | 2.18× | 1.69× |
4.3 面积与功耗
| 参数 | AA-DiT | A100 GPU | 比例 |
|---|---|---|---|
| 面积 | 27.97 mm² | 826 mm² | 3.39% |
| 工艺 | 7nm | 7nm | - |
面积分解:
| 模块 | 面积 (mm²) | 占比 |
|---|---|---|
| PE Array | 1.52 | 5.4% |
| Screening | 0.0022 | 0.008% |
| SFU | 0.064 | 0.23% |
| Activation SRAM | 15.83 | 56.6% |
| Weight SRAM | 10.55 | 37.7% |
4.4 生成质量
AA-DiT 在显著加速的同时,保持了生成质量:
- FID 分数与原始模型相当
- 视觉质量无明显下降
- 算法-架构协同设计确保质量-效率平衡
5. 为什么对 AI 硬件重要
5.1 算法-架构协同设计的典范
AA-DiT 展示了算法-架构协同设计的强大威力:
传统方法:
- 算法优化 → 硬件适配
- 硬件设计 → 算法适配
- 两者分离,次优解
协同设计:
- 算法洞察指导硬件设计
- 硬件约束反馈算法优化
- 全局最优解
关键启示:
“The dedicated accelerator achieves significantly more compact integration compared with an advanced GPU.”
仅用 A100 3.39% 的面积实现 6.7 倍加速,证明了协同设计的价值。
5.2 对生成式 AI 芯片的启示
1. 多级相似性挖掘:
- 空间相似性: 注意力模式的结构化稀疏
- 时间相似性: 迭代计算的跨步复用
- 未来可探索: 层间相似性、模型间相似性
2. 混合稀疏模式:
- 静态稀疏: 预定义模式,硬件友好
- 动态稀疏: 运行时适配,灵活性高
- 两者结合: 兼顾效率和适应性
3. 轻量级硬件支持:
- 筛选单元仅占 0.008% 面积
- 证明复杂算法可以通过精巧设计高效硬件化
- 为其他动态算法硬件化提供参考
5.3 对神经符号 AI 的关联
虽然 AA-DiT 针对扩散模型,但其设计思想对神经符号 AI 有重要启示:
结构化稀疏性:
- 神经符号 AI 通常具有明确的结构
- 可以设计针对性的稀疏计算模式
- 类似混合注意力的静态/动态结合
迭代推理加速:
- 符号推理通常是迭代的
- 可以借鉴跨时间步复用的思想
- 中间结果缓存和复用
硬件-算法协同:
- 神经符号 AI 的离散特性需要专门硬件支持
- 协同设计可以显著提升效率
6. 局限与未来方向
6.1 当前局限
- 任务范围: 主要针对图像生成任务,未扩展到视频生成
- 模型范围: 在特定 DiT 变体上验证,通用性待进一步验证
- 精度约束: 当前设计针对 FP16/BF16,低精度扩展有待探索
- 多模态: 未涉及文本-图像联合生成的特殊优化
6.2 未来研究方向
技术演进:
- 扩展到视频扩散模型(如 Sora)
- 支持更低精度(INT8/INT4)的量化感知设计
- 多模态融合计算的专用架构
- 与光计算、存算一体等新兴技术结合
应用扩展:
- 实时交互式生成应用
- 边缘设备上的高效推理
- 与 LLM 结合的统一生成架构
7. 总结
AA-DiT 代表了扩散模型加速器设计的重要进展:
- 算法创新: 静态/动态混合注意力 + 跨时间步复用
- 架构创新: 轻量级筛选单元 + 块级聚集数据流 + 复用感知调度
- 性能突破: 6.7 倍加速,仅 3.39% 面积,2.18 倍能效提升
- 设计范式: 算法-架构协同设计的成功范例
对于 AI 芯片设计,AA-DiT 提供了以下关键启示:
- 多级相似性挖掘: 空间、时间、层间相似性的系统利用
- 混合稀疏模式: 静态规则性与动态适应性的平衡
- 轻量级硬件支持: 复杂算法的高效硬件化路径
- 协同设计方法论: 算法洞察与硬件约束的深度融合
随着生成式 AI 的快速发展,类似 AA-DiT 的专用加速器将在 AIGC 应用中发挥越来越重要的作用,为实时、高效、低成本的图像和视频生成提供硬件基础。
参考文献
- Li, S., Ponzina, F., & Rosing, T. (2026). AA-DiT: An Algorithm-Architecture Co-Design for Diffusion Transformer Acceleration. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems. DOI: 10.1109/TCAD.2026.3674447
- Peebles, W., & Xie, S. (2023). Scalable diffusion models with transformers. ICCV.
- Rombach, R., et al. (2022). High-resolution image synthesis with latent diffusion models. CVPR.
- Chen, J., et al. (2023). ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and Accelerator Co-Design. HPCA.
- Lu, Y., et al. (2023). Cambricon-D: A fully integrated diffusion model accelerator with conditional computing. ISCA.