Research Article

AA-DiT: Algorithm-Architecture Co-Design for Diffusion Transformer Acceleration

April 01, 2026 · research, ai-accelerator, diffusion-model, transformer

Rate this article:

0.0 (0 votes)

AA-DiT: Algorithm-Architecture Co-Design for Diffusion Transformer Acceleration

原文链接: IEEE TCAD 2026 Authors: Siqi Li, Flavio Ponzina, Tajana Rosing (UC San Diego, SDSU)

摘要

AA-DiT 是一种面向 Diffusion Transformer (DiT) 的算法-架构协同设计加速器，通过挖掘 DiT 执行中的多级空间和时间相似性，实现了高达 6.7 倍 的端到端加速。论文提出了静态/动态混合注意力算法，能够在运行时检测并跳过不必要的计算；同时利用跨时间步的中间结果复用，显著降低计算负担。在 7nm 工艺下，AA-DiT 仅需 27.97 mm² 面积（仅为 A100 GPU 的 3.39%），相比 A100 GPU、ViTCoD 和 Cambricon-D 等基线实现了显著的性能和能效提升。

1. 问题定义：Diffusion Transformer 的加速挑战

1.1 DiT 的崛起与计算瓶颈

Diffusion Transformer (DiT) 正在成为 AIGC 领域的主流架构：

“The backbone of diffusion models is currently shifting from U-Net-based CNNs to Diffusion Transformers (DiTs) in order to achieve better generative quality and scalability.”

DiT 的优势:

更好的生成质量和可扩展性
已应用于 Sora、Stable Diffusion 3 等前沿产品
强大的长距离依赖建模能力

但计算挑战严峻:

迭代去噪过程需要多个时间步（通常 50-1000 步）
每个时间步包含大规模 Transformer 计算
在 A100 GPU 上生成 512×512 图像需要 超过 10 秒

1.2 现有加速方案的局限

方案类型	代表工作	局限
NLP Transformer 加速器	ViTCoD	不考虑扩散模型的迭代特性
扩散模型加速器	Cambricon-D	仅利用时间相似性，未充分探索算法-架构协同设计空间
静态稀疏注意力	BigBird, Longformer	无法捕获动态全局信息
动态稀疏注意力	DSA	需要大量训练/微调开销

核心问题: 缺乏针对 DiT 独特特性的系统性加速方案

1.3 多级相似性的发现

论文通过系统分析 DiT 模型结构和计算过程，发现了两类关键相似性：

空间相似性 (Spatial Similarity):

多头注意力中，高注意力分数集中在对角线和特定垂直带
表明不同注意力头分别负责局部细节和全局结构

时间相似性 (Temporal Similarity):

相邻时间步的注意力图和 MLP 输出具有显著相似性
贯穿迭代计算的多个模块

2. AA-DiT 算法设计

2.1 静态/动态混合注意力算法

基于空间相似性的观察，论文提出了创新的混合注意力机制：

核心洞察:

“Important attention scores tend to cluster along a static diagonal region and a set of dynamic columns.”

算法设计:

┌─────────────────────────────────────────────────────────────┐
│           Static/Dynamic Hybrid Attention                    │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│   Attention Map Pattern:                                     │
│   ┌─────────────────────────────────────┐                   │
│   │ ████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ │  Static Diagonal │
│   │ ░░███░░░░░░░░░░░░░░█░░░░░░░░░░░░░░░ │  (Always kept)   │
│   │ ░░░██░░░░░░░░░░░░░██░░░░░░░░░░░░░░░ │                  │
│   │ ░░░░█░░░░░░░░░░░░░██░░░░░░░░░░░░░░░ │  Dynamic Columns │
│   │ ░░░░░░░░░░░░░░░░░░█░░░░░░░░░░░░░░░░ │  (Runtime sel.)  │
│   │ ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ │                  │
│   └─────────────────────────────────────┘                   │
│                                                              │
│   Compute Flow:                                              │
│   1. Static part: Predefined diagonal pattern                │
│   2. Dynamic part: Runtime screening of important columns    │
│   3. Skip: Low-importance attention scores                   │
│                                                              │
└─────────────────────────────────────────────────────────────┘

关键优势:

无需重训练: 可直接应用于各种 DiT 模型
细粒度: 在运行时动态选择重要计算
硬件友好: 轻量级筛选机制

2.2 跨时间步中间结果复用

利用时间相似性，论文提出了全面的中间结果复用策略：

复用范围:

注意力模块: 复用前一时间步的注意力图
MLP 模块: 复用前一时间步的 MLP 输出

复用机制:

Timestep N:   Compute full Attention(Q, K, V) → Store
                    ↓
Timestep N-1: Reuse stored attention where similar
              Compute only changed parts
                    ↓
Timestep N-2: Continue reuse with update

质量保证:

相似性阈值控制，确保生成质量不下降
自适应复用策略，根据内容动态调整

3. AA-DiT 架构设计

3.1 跨层级协同设计

算法创新带来了三个架构挑战，论文提出了系统性的解决方案：

挑战 1: 运行时动态检测的硬件支持

解决方案: 轻量级硬件筛选单元
开销: 仅占总面积 0.008%，总功耗 0.1%

挑战 2: 不规则计算和内存访问模式

解决方案: 块级聚集数据流 (Block-wise Gathering Dataflow)
效果: 缓解混合注意力引起的不规则性

挑战 3: 复用算法的高效调度

解决方案: 复用感知调度机制
效果: 重叠数据移动和计算，最小化延迟

3.2 硬件架构概览

┌─────────────────────────────────────────────────────────────┐
│                    AA-DiT Accelerator                        │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  ┌─────────────┐    ┌─────────────┐    ┌─────────────┐     │
│  │   PE Array  │◄──►│  Screening  │◄──►│    SFU      │     │
│  │  (1.52mm²)  │    │  (0.0022mm²)│    │  (0.064mm²) │     │
│  │  7759.87mW  │    │   13.68mW   │    │  337.28mW   │     │
│  └──────┬──────┘    └─────────────┘    └─────────────┘     │
│         │                                                    │
│         ▼                                                    │
│  ┌─────────────────────────────────────────────────────┐    │
│  │              Memory Hierarchy                        │    │
│  │  ┌───────────────┐      ┌───────────────┐          │    │
│  │  │ Activation    │      │ Weight SRAM   │          │    │
│  │  │ SRAM (15.83mm²)│      │ (10.55mm²)    │          │    │
│  │  │ 2856.69mW     │      │ 1904.46mW     │          │    │
│  │  └───────────────┘      └───────────────┘          │    │
│  └─────────────────────────────────────────────────────┘    │
│                                                              │
│  Total: 27.97 mm², 12871.98 mW (7nm technology)            │
│                                                              │
└─────────────────────────────────────────────────────────────┘

3.3 关键硬件组件

1. 轻量级筛选单元 (Screening Unit):

面积: 0.0022 mm² (几乎可以忽略)
功耗: 13.68 mW (总功耗的 0.1%)
功能: 运行时检测注意力分数重要性

2. 块级聚集数据流:

处理混合注意力引起的不规则访问
优化内存带宽利用率
支持动态稀疏模式的高效执行

3. 复用感知调度器:

协调跨时间步的数据复用
重叠计算和数据移动
最小化端到端延迟

4. 实验结果

4.1 端到端性能

AA-DiT 在多个 DiT 模型上进行了评估：

基线	平均加速比	备注
A100 GPU	6.73×	最先进的 GPU
Cambricon-D	2.55×	专用扩散模型加速器
ViTCoD	1.85×	专用 Transformer 加速器

分解分析:

模块	vs Cambricon-D	vs ViTCoD
Attention	2.3×	1.46×
MLP	2.12×	1.92×

4.2 能效分析

指标	vs Cambricon-D	vs ViTCoD
能效提升	2.18×	1.69×

4.3 面积与功耗

参数	AA-DiT	A100 GPU	比例
面积	27.97 mm²	826 mm²	3.39%
工艺	7nm	7nm	-

面积分解:

模块	面积 (mm²)	占比
PE Array	1.52	5.4%
Screening	0.0022	0.008%
SFU	0.064	0.23%
Activation SRAM	15.83	56.6%
Weight SRAM	10.55	37.7%

4.4 生成质量

AA-DiT 在显著加速的同时，保持了生成质量：

FID 分数与原始模型相当
视觉质量无明显下降
算法-架构协同设计确保质量-效率平衡

5. 为什么对 AI 硬件重要

5.1 算法-架构协同设计的典范

AA-DiT 展示了算法-架构协同设计的强大威力：

传统方法:

算法优化 → 硬件适配
硬件设计 → 算法适配
两者分离，次优解

协同设计:

算法洞察指导硬件设计
硬件约束反馈算法优化
全局最优解

关键启示:

“The dedicated accelerator achieves significantly more compact integration compared with an advanced GPU.”

仅用 A100 3.39% 的面积实现 6.7 倍加速，证明了协同设计的价值。

5.2 对生成式 AI 芯片的启示

1. 多级相似性挖掘:

空间相似性: 注意力模式的结构化稀疏
时间相似性: 迭代计算的跨步复用
未来可探索: 层间相似性、模型间相似性

2. 混合稀疏模式:

静态稀疏: 预定义模式，硬件友好
动态稀疏: 运行时适配，灵活性高
两者结合: 兼顾效率和适应性

3. 轻量级硬件支持:

筛选单元仅占 0.008% 面积
证明复杂算法可以通过精巧设计高效硬件化
为其他动态算法硬件化提供参考

5.3 对神经符号 AI 的关联

虽然 AA-DiT 针对扩散模型，但其设计思想对神经符号 AI 有重要启示：

结构化稀疏性:

神经符号 AI 通常具有明确的结构
可以设计针对性的稀疏计算模式
类似混合注意力的静态/动态结合

迭代推理加速:

符号推理通常是迭代的
可以借鉴跨时间步复用的思想
中间结果缓存和复用

硬件-算法协同:

神经符号 AI 的离散特性需要专门硬件支持
协同设计可以显著提升效率

6. 局限与未来方向

6.1 当前局限

任务范围: 主要针对图像生成任务，未扩展到视频生成
模型范围: 在特定 DiT 变体上验证，通用性待进一步验证
精度约束: 当前设计针对 FP16/BF16，低精度扩展有待探索
多模态: 未涉及文本-图像联合生成的特殊优化

6.2 未来研究方向

技术演进:

扩展到视频扩散模型（如 Sora）
支持更低精度（INT8/INT4）的量化感知设计
多模态融合计算的专用架构
与光计算、存算一体等新兴技术结合

应用扩展:

实时交互式生成应用
边缘设备上的高效推理
与 LLM 结合的统一生成架构

7. 总结

AA-DiT 代表了扩散模型加速器设计的重要进展：

算法创新: 静态/动态混合注意力 + 跨时间步复用
架构创新: 轻量级筛选单元 + 块级聚集数据流 + 复用感知调度
性能突破: 6.7 倍加速，仅 3.39% 面积，2.18 倍能效提升
设计范式: 算法-架构协同设计的成功范例

对于 AI 芯片设计，AA-DiT 提供了以下关键启示：

多级相似性挖掘: 空间、时间、层间相似性的系统利用
混合稀疏模式: 静态规则性与动态适应性的平衡
轻量级硬件支持: 复杂算法的高效硬件化路径
协同设计方法论: 算法洞察与硬件约束的深度融合

随着生成式 AI 的快速发展，类似 AA-DiT 的专用加速器将在 AIGC 应用中发挥越来越重要的作用，为实时、高效、低成本的图像和视频生成提供硬件基础。

参考文献

Li, S., Ponzina, F., & Rosing, T. (2026). AA-DiT: An Algorithm-Architecture Co-Design for Diffusion Transformer Acceleration. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems. DOI: 10.1109/TCAD.2026.3674447
Peebles, W., & Xie, S. (2023). Scalable diffusion models with transformers. ICCV.
Rombach, R., et al. (2022). High-resolution image synthesis with latent diffusion models. CVPR.
Chen, J., et al. (2023). ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and Accelerator Co-Design. HPCA.
Lu, Y., et al. (2023). Cambricon-D: A fully integrated diffusion model accelerator with conditional computing. ISCA.