Research Article
ReNN-RV: Run-time PE Reconfiguration for DNN Inference Acceleration with Custom RISC-V ISA
ReNN-RV: Run-time PE Reconfiguration for DNN Inference Acceleration with Custom RISC-V ISA
原文链接: IEEE TC 2026 Authors: Yueting Li, Terry Tao Ye, Ngai Wong, Zhenhua Zhu, Yongfu Li, Weisheng Zhao
摘要
ReNN-RV 是一种面向边缘设备的 RISC-V 架构 DNN 加速器,通过计算感知的 ISA 扩展和运行时 PE 重构机制,实现了 MAC 与非 MAC 操作的无缝切换。该设计采用指令驱动的处理流水线,支持细粒度的任务调度,在 FPGA 平台上实现了 14.6× 的周期数减少和 15.3× 的执行时间降低。相比现有方案,ReNN-RV 在能效和计算吞吐上分别实现了 10.1× 和 10.3× 的提升,为资源受限平台上的高效 DNN 推理提供了新范式。
1. 问题定义:边缘 DNN 推理的挑战
1.1 边缘 AI 的严苛约束
深度神经网络(DNN)正越来越多地部署在资源受限的边缘设备上:
“Deep neural networks (DNNs) are increasingly deployed on resource-limited platforms under stringent power budgets.”
边缘部署的核心挑战:
- 功耗限制:通常要求 < 1W 甚至 < 100mW
- 延迟要求:实时应用需要毫秒级响应
- 资源受限:有限的计算单元和存储容量
- 成本敏感:无法使用高端 GPU 或专用 ASIC
1.2 RISC-V 扩展的机遇与局限
RISC-V 作为开源指令集架构,为边缘 AI 加速器提供了灵活的基础:
现有方案的问题:
| 方案类型 | 代表工作 | 局限 |
|---|---|---|
| 固定通信映射 | RV-SCNN | 配置开销低但灵活性差 |
| 每周期可重构映射 | MaRVIn | 灵活性高但能耗代价大 |
| 专用加速器耦合 | CVA6-Accel, RI5CY-Accel | 无法持续保持高 PE 利用率 |
核心问题: 现有方案无法高效支持混合 MAC/非 MAC 操作
1.3 三个关键观察
论文通过分析现代 DNN 的计算特性,发现了三个关键挑战:
观察 1:DNN 计算模式多样性
- 1×1 卷积、n×n 卷积、BatchNorm 等不同算子具有不同的数据流特征
- 传统 ISA 扩展无法高效支持这种多样性
观察 2:层间数据流差异导致 PE 利用率低下
- 不同层的计算-内存比例和重用局部性不同
- 固定硬件资源配置导致利用率不均衡
观察 3:非 MAC 操作成为计算负担
- EfficientNetV2、DenseNet 等现代网络中非 MAC 操作占比显著
- 现有加速器主要针对 MAC 优化,非 MAC 操作效率低下
EfficientNetV2 计算分布:
┌─────────────────────────────────────┐
│ MAC: 60% ████████████████████ │
│ Non-MAC: 40% ██████████████ │
└─────────────────────────────────────┘
DenseNet 计算分布:
┌─────────────────────────────────────┐
│ MAC: 70% █████████████████████ │
│ Non-MAC: 30% ██████████ │
└─────────────────────────────────────┘
2. ReNN-RV 架构设计
2.1 总体架构
ReNN-RV 采用硬件-软件协同设计,包含三个核心组件:
┌─────────────────────────────────────────────────────────────┐
│ ReNN-RV Architecture │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ Computation-Aware RISC-V ISA Extension │ │
│ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │
│ │ │ MMicro │ │ MInter │ │ MOuter │ │ │
│ │ │ (微层级) │ │ (中间层) │ │ (外层) │ │ │
│ │ └──────────┘ └──────────┘ └──────────┘ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ Instruction-Driven Processing Pipeline │ │
│ │ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │ │
│ │ │ IF │→│ ID │→│ EX │→│ MEM │→│ WB │ │ │
│ │ └─────┘ └─────┘ └─────┘ └─────┘ └─────┘ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ Reconfigurable PE (RePE) Accelerator │ │
│ │ ┌─────────────────────────────────────────────┐ │ │
│ │ │ Path MUX │ DSP Sum-tree │ Shared Logic │ │ │
│ │ └─────────────────────────────────────────────┘ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
2.2 计算感知 ISA 扩展
创新:三层指令模式
论文提出了三种指令模式,分别对应不同层级的控制粒度:
| 模式 | 层级 | 功能 | 典型应用 |
|---|---|---|---|
| MMicro | 微层级 | PE 级配置、计算控制 | 单个卷积核计算 |
| MInter | 中间层 | 层内任务调度 | 单层网络前向传播 |
| MOuter | 外层 | 跨层协调 | 多层网络端到端推理 |
紧凑编码策略:
指令格式(32位):
┌────────┬────────┬────────┬────────┬────────┬────────┐
│ Mode │ Opcode │ rs1 │ rs2 │ rd │ Config │
│ (2b) │ (5b) │ (5b) │ (5b) │ (5b) │ (10b) │
└────────┴────────┴────────┴────────┴────────┴────────┘
模式特定字段重定义:
- MMicro: 配置 PE 行列、计算模式
- MInter: 配置循环次数、数据重用
- MOuter: 配置层间连接、数据流
关键优势:
- 一次指令设置后,层内执行无需重新配置
- 减少控制指令开销
- 支持细粒度任务调度
2.3 指令驱动处理流水线
三级流水线设计:
Cycle 1: IF (Instruction Fetch)
↓
Cycle 2: ID (Instruction Decode) - 计算感知解码
↓
Cycle 3: EX (Execute) - RePE 执行
↓
Cycle 4: MEM (Memory Access)
↓
Cycle 5: WB (Write Back)
与传统设计的对比:
| 特性 | 传统 RISC-V | ReNN-RV |
|---|---|---|
| 解码周期 | 25 周期 | 1 周期 |
| 指令利用率 | 低(字段浪费) | 高(紧凑编码) |
| 可扩展性 | 受限 | 良好 |
| 控制开销 | 高 | 低 |
2.4 运行时可重构 PE (RePE)
核心创新:路径复用机制
RePE 通过配置路径多路选择器(Path MUX),在运行时动态切换计算模式:
┌─────────────────────────────────────────────────────────┐
│ RePE Structure │
├─────────────────────────────────────────────────────────┤
│ │
│ Input A ──┐ │
│ ├──→ ┌─────────┐ ──→ ┌─────────┐ ──→ Output│
│ Input B ──┘ │ Path │ │ DSP │ │
│ │ MUX │ │ Sum-tree│ │
│ Config ───────→ └─────────┘ └─────────┘ │
│ │
│ Supported Operations: │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ ADD │ │ SUB │ │ MUL │ │ DIV │ │
│ └─────────┘ └─────────┘ └─────────┘ └─────────┘ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ MAC │ │ Logic │ │ BN │ │ Other │ │
│ └─────────┘ └─────────┘ └─────────┘ └─────────┘ │
│ │
└─────────────────────────────────────────────────────────┘
重构机制:
- MAC 模式: 配置为乘法累加,支持卷积运算
- 非 MAC 模式: 配置为加法、减法、除法、逻辑运算,支持 BatchNorm、激活函数等
- 切换延迟: 单周期完成模式切换
- 面积开销: 可忽略(通过路径复用实现)
3. 实验结果
3.1 矩阵运算性能
在 8-bit 矩阵乘法任务上的对比(A ∈ R¹⁰ˣ¹⁰, B ∈ R¹⁰ˣ¹⁰²⁴):
| 指标 | Caesar | BLADE | C-SRAM | ReNN-RV | 提升 |
|---|---|---|---|---|---|
| 周期数 | 基准 | - | - | 14.6× 减少 | vs 基线 |
| 执行时间 | 基准 | - | - | 15.3× 减少 | vs 基线 |
| 每 PE 能耗 | 基准 | - | - | 3.02× 降低 | vs 基线 |
3.2 DNN 模型端到端性能
在五个代表性 DNN 模型上的评估:
| 模型 | 主要操作 | 延迟降低 | 能耗降低 |
|---|---|---|---|
| MobileNetV2 | Conv + BN | 8.7× | 23.55× |
| ResNet50 | Conv + BN | 8.7× | 23.55× |
| EfficientNet | Conv + BN + SE | 8.7× | 23.55× |
| DenseNet | Conv + BN | 8.7× | 23.55× |
| VGG19 | 主要为 Conv | 8.7× | 23.55× |
精度保持:
- INT8 量化推理精度与 GPU INT8 基线相当
- 标准舍入和饱和语义
3.3 与最先进方案对比
| 方案 | 平台 | 频率 | 峰值吞吐 | 功耗 | 能效 |
|---|---|---|---|---|---|
| MaRVIn | - | - | 0.217 GOPS | - | 1.09 GOPS/W |
| CVA6-Accel | - | - | 0.074 GOPS | 0.7W | 0.139 GOPS/W |
| RI5CY-Accel | PYNQ Z2 | 55MHz | 0.126 GOPS | 0.3W | 0.45 GOPS/W |
| ReNN-RV | XCVU19P | 200MHz | 1.19 GOPS | 0.5W | 2.38 GOPS/W |
对比提升:
- 能效 vs MaRVIn: 2.18×
- 能效 vs CVA6-Accel: 17.12×
- 能效 vs RI5CY-Accel: 5.29×
3.4 硬件开销
| 资源 | ReNN-RV | RV-SCNN | MaRVIn | CVA6-Accel | RI5CY-Accel |
|---|---|---|---|---|---|
| DSP | 5 | - | - | - | - |
| FF (K) | 18.1 | 可比 | 可比 | 更高 | 更高 |
| LUT (K) | 22.5 | 可比 | 可比 | 更高 | 更高 |
| BRAM | 4 | - | - | - | - |
资源利用率: ReNN-RV 的逻辑资源利用率与 RV-SCNN 和 MaRVIn 相当,显著低于 PQNTRU、CVA6-Accel 和 RI5CY-Accel。
4. 为什么对 AI 硬件重要
4.1 RISC-V 生态的 DNN 加速方案
ReNN-RV 代表了 RISC-V 架构在 AI 加速领域的重要进展:
开源优势:
- 基于开源 RISC-V ISA,无授权费用
- 可定制指令扩展,适应特定应用
- 活跃的社区支持和丰富的工具链
边缘部署价值:
- 低功耗(0.5W)适合电池供电设备
- 高能效(2.38 GOPS/W)延长续航时间
- 可重构性支持多种 DNN 模型
4.2 MAC/非 MAC 混合计算的新范式
传统 DNN 加速器主要针对 MAC 操作优化,但现代网络中非 MAC 操作占比越来越高:
ReNN-RV 的解决方案:
| 特性 | 传统加速器 | ReNN-RV |
|---|---|---|
| MAC 支持 | ✅ 高效 | ✅ 高效 |
| 非 MAC 支持 | ❌ 低效/不支持 | ✅ 高效 |
| 切换开销 | 高(需重新配置) | 低(单周期) |
| 面积开销 | 大(专用单元) | 小(路径复用) |
对神经符号 AI 的启示:
- 神经符号 AI 涉及大量非 MAC 操作(逻辑运算、图遍历)
- ReNN-RV 的可重构 PE 设计可为神经符号计算提供硬件基础
- 路径复用思想可扩展到更复杂的操作类型
4.3 分层指令机制的设计思想
ReNN-RV 的三层指令模式(MMicro/MInter/MOuter)提供了重要的设计启示:
分层控制的价值:
- 微层级(MMicro): 细粒度控制,适应算子多样性
- 中间层(MInter): 层内调度,优化数据重用
- 外层(MOuter): 跨层协调,管理端到端执行
对其他加速器的借鉴:
- 分层控制可降低整体控制开销
- 不同层级可采用不同的优化策略
- 支持渐进式复杂度管理
4.4 边缘 AI 芯片的设计趋势
ReNN-RV 体现了边缘 AI 芯片的几个重要趋势:
趋势 1:软硬件协同设计
- 算法特性指导 ISA 设计
- 硬件约束反馈算法优化
- 系统级最优而非局部最优
趋势 2:可重构与专用化的平衡
- 足够灵活以支持多种模型
- 足够专用以实现高能效
- 运行时重构降低静态开销
趋势 3:开源生态的利用
- 基于开源 ISA 降低开发成本
- 复用现有工具链和生态
- 社区协作加速创新
5. 局限与未来方向
5.1 当前局限
- 精度支持: 当前主要支持 INT8,FP16/BF16 扩展有待探索
- 模型范围: 主要针对 CNN,Transformer 支持有待验证
- 规模限制: FPGA 原型规模有限,ASIC 实现有待开展
- 稀疏性: 未充分利用 DNN 的稀疏性特性
5.2 未来研究方向
技术演进:
- 支持更低精度(INT4)和混合精度
- 扩展到 Transformer 和注意力机制
- 集成稀疏计算支持
- 探索存算一体(CIM)结合
应用扩展:
- tinyML 应用(< 1mW)
- 实时视频处理
- 多模态融合(视觉+语音)
- 联邦学习边缘节点
6. 总结
ReNN-RV 代表了 RISC-V 架构 DNN 加速器的重要进展:
- ISA 创新: 计算感知的三层指令模式,紧凑编码减少开销
- 架构创新: 指令驱动流水线 + 运行时 PE 重构
- 性能突破: 14.6× 周期减少,10.1× 能效提升,10.3× 吞吐提升
- 设计范式: MAC/非 MAC 混合计算的高效支持
对于 AI 芯片设计,ReNN-RV 提供了以下关键启示:
- 开源 ISA 的价值: RISC-V 为边缘 AI 提供了灵活基础
- 可重构设计: 路径复用实现灵活性与效率的平衡
- 分层控制: 降低控制开销的有效策略
- 混合计算: 现代 DNN 需要同时支持 MAC 和非 MAC 操作
随着边缘 AI 应用的快速增长,类似 ReNN-RV 的开源、高效、灵活加速器将在物联网、可穿戴设备、智能传感器等场景中发挥重要作用。
参考文献
- Li, Y., Ye, T. T., Wong, N., Zhu, Z., Li, Y., & Zhao, W. (2026). ReNN-RV: Run-time PE Reconfiguration for DNN Inference Acceleration with Custom RISC-V ISA. IEEE Transactions on Computers. DOI: 10.1109/TC.2026.3669718
- Waterman, A., et al. (2014). The RISC-V instruction set manual. UC Berkeley Technical Report.
- Chen, Y., et al. (2016). Eyeriss: A spatial architecture for energy-efficient dataflow for convolutional neural networks. ISCA.
- Zhang, X., et al. (2020). RISC-V based heterogeneous reconfigurable multicore platform for AI applications. IEEE Access.