ReNN-RV: Run-time PE Reconfiguration for DNN Inference Acceleration with Custom RISC-V ISA

原文链接: IEEE TC 2026 Authors: Yueting Li, Terry Tao Ye, Ngai Wong, Zhenhua Zhu, Yongfu Li, Weisheng Zhao

摘要

ReNN-RV 是一种面向边缘设备的 RISC-V 架构 DNN 加速器,通过计算感知的 ISA 扩展和运行时 PE 重构机制,实现了 MAC 与非 MAC 操作的无缝切换。该设计采用指令驱动的处理流水线,支持细粒度的任务调度,在 FPGA 平台上实现了 14.6× 的周期数减少和 15.3× 的执行时间降低。相比现有方案,ReNN-RV 在能效和计算吞吐上分别实现了 10.1×10.3× 的提升,为资源受限平台上的高效 DNN 推理提供了新范式。


1. 问题定义:边缘 DNN 推理的挑战

1.1 边缘 AI 的严苛约束

深度神经网络(DNN)正越来越多地部署在资源受限的边缘设备上:

“Deep neural networks (DNNs) are increasingly deployed on resource-limited platforms under stringent power budgets.”

边缘部署的核心挑战:

  • 功耗限制:通常要求 < 1W 甚至 < 100mW
  • 延迟要求:实时应用需要毫秒级响应
  • 资源受限:有限的计算单元和存储容量
  • 成本敏感:无法使用高端 GPU 或专用 ASIC

1.2 RISC-V 扩展的机遇与局限

RISC-V 作为开源指令集架构,为边缘 AI 加速器提供了灵活的基础:

现有方案的问题:

方案类型 代表工作 局限
固定通信映射 RV-SCNN 配置开销低但灵活性差
每周期可重构映射 MaRVIn 灵活性高但能耗代价大
专用加速器耦合 CVA6-Accel, RI5CY-Accel 无法持续保持高 PE 利用率

核心问题: 现有方案无法高效支持混合 MAC/非 MAC 操作

1.3 三个关键观察

论文通过分析现代 DNN 的计算特性,发现了三个关键挑战:

观察 1:DNN 计算模式多样性

  • 1×1 卷积、n×n 卷积、BatchNorm 等不同算子具有不同的数据流特征
  • 传统 ISA 扩展无法高效支持这种多样性

观察 2:层间数据流差异导致 PE 利用率低下

  • 不同层的计算-内存比例和重用局部性不同
  • 固定硬件资源配置导致利用率不均衡

观察 3:非 MAC 操作成为计算负担

  • EfficientNetV2、DenseNet 等现代网络中非 MAC 操作占比显著
  • 现有加速器主要针对 MAC 优化,非 MAC 操作效率低下
EfficientNetV2 计算分布:
┌─────────────────────────────────────┐
│  MAC: 60%    ████████████████████   │
│  Non-MAC: 40% ██████████████         │
└─────────────────────────────────────┘

DenseNet 计算分布:
┌─────────────────────────────────────┐
│  MAC: 70%    █████████████████████  │
│  Non-MAC: 30% ██████████            │
└─────────────────────────────────────┘

2. ReNN-RV 架构设计

2.1 总体架构

ReNN-RV 采用硬件-软件协同设计,包含三个核心组件:

┌─────────────────────────────────────────────────────────────┐
│                    ReNN-RV Architecture                     │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  ┌─────────────────────────────────────────────────────┐   │
│  │         Computation-Aware RISC-V ISA Extension       │   │
│  │  ┌──────────┐  ┌──────────┐  ┌──────────┐          │   │
│  │  │ MMicro   │  │ MInter   │  │ MOuter   │          │   │
│  │  │ (微层级) │  │ (中间层) │  │ (外层)   │          │   │
│  │  └──────────┘  └──────────┘  └──────────┘          │   │
│  └─────────────────────────────────────────────────────┘   │
│                           │                                  │
│                           ▼                                  │
│  ┌─────────────────────────────────────────────────────┐   │
│  │         Instruction-Driven Processing Pipeline       │   │
│  │  ┌─────┐  ┌─────┐  ┌─────┐  ┌─────┐  ┌─────┐      │   │
│  │  │ IF  │→│ ID  │→│ EX  │→│ MEM │→│ WB  │      │   │
│  │  └─────┘  └─────┘  └─────┘  └─────┘  └─────┘      │   │
│  └─────────────────────────────────────────────────────┘   │
│                           │                                  │
│                           ▼                                  │
│  ┌─────────────────────────────────────────────────────┐   │
│  │         Reconfigurable PE (RePE) Accelerator         │   │
│  │  ┌─────────────────────────────────────────────┐   │   │
│  │  │  Path MUX  │  DSP Sum-tree  │  Shared Logic  │   │   │
│  │  └─────────────────────────────────────────────┘   │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                              │
└─────────────────────────────────────────────────────────────┘

2.2 计算感知 ISA 扩展

创新:三层指令模式

论文提出了三种指令模式,分别对应不同层级的控制粒度:

模式 层级 功能 典型应用
MMicro 微层级 PE 级配置、计算控制 单个卷积核计算
MInter 中间层 层内任务调度 单层网络前向传播
MOuter 外层 跨层协调 多层网络端到端推理

紧凑编码策略:

指令格式(32位):
┌────────┬────────┬────────┬────────┬────────┬────────┐
│  Mode  │ Opcode │  rs1   │  rs2   │  rd    │ Config │
│  (2b)  │  (5b)  │  (5b)  │  (5b)  │  (5b)  │ (10b)  │
└────────┴────────┴────────┴────────┴────────┴────────┘

模式特定字段重定义:
- MMicro: 配置 PE 行列、计算模式
- MInter: 配置循环次数、数据重用
- MOuter: 配置层间连接、数据流

关键优势:

  • 一次指令设置后,层内执行无需重新配置
  • 减少控制指令开销
  • 支持细粒度任务调度

2.3 指令驱动处理流水线

三级流水线设计:

Cycle 1:  IF (Instruction Fetch)
         ↓
Cycle 2:  ID (Instruction Decode) - 计算感知解码
         ↓
Cycle 3:  EX (Execute) - RePE 执行
         ↓
Cycle 4:  MEM (Memory Access)
         ↓
Cycle 5:  WB (Write Back)

与传统设计的对比:

特性 传统 RISC-V ReNN-RV
解码周期 25 周期 1 周期
指令利用率 低(字段浪费) 高(紧凑编码)
可扩展性 受限 良好
控制开销

2.4 运行时可重构 PE (RePE)

核心创新:路径复用机制

RePE 通过配置路径多路选择器(Path MUX),在运行时动态切换计算模式:

┌─────────────────────────────────────────────────────────┐
│                    RePE Structure                        │
├─────────────────────────────────────────────────────────┤
│                                                          │
│   Input A ──┐                                           │
│              ├──→ ┌─────────┐ ──→ ┌─────────┐ ──→ Output│
│   Input B ──┘     │ Path    │     │  DSP    │           │
│                   │  MUX    │     │ Sum-tree│           │
│   Config ───────→ └─────────┘     └─────────┘           │
│                                                          │
│   Supported Operations:                                  │
│   ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐   │
│   │   ADD   │  │   SUB   │  │   MUL   │  │   DIV   │   │
│   └─────────┘  └─────────┘  └─────────┘  └─────────┘   │
│   ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐   │
│   │   MAC   │  │  Logic  │  │   BN    │  │  Other  │   │
│   └─────────┘  └─────────┘  └─────────┘  └─────────┘   │
│                                                          │
└─────────────────────────────────────────────────────────┘

重构机制:

  • MAC 模式: 配置为乘法累加,支持卷积运算
  • 非 MAC 模式: 配置为加法、减法、除法、逻辑运算,支持 BatchNorm、激活函数等
  • 切换延迟: 单周期完成模式切换
  • 面积开销: 可忽略(通过路径复用实现)

3. 实验结果

3.1 矩阵运算性能

在 8-bit 矩阵乘法任务上的对比(A ∈ R¹⁰ˣ¹⁰, B ∈ R¹⁰ˣ¹⁰²⁴):

指标 Caesar BLADE C-SRAM ReNN-RV 提升
周期数 基准 - - 14.6× 减少 vs 基线
执行时间 基准 - - 15.3× 减少 vs 基线
每 PE 能耗 基准 - - 3.02× 降低 vs 基线

3.2 DNN 模型端到端性能

在五个代表性 DNN 模型上的评估:

模型 主要操作 延迟降低 能耗降低
MobileNetV2 Conv + BN 8.7× 23.55×
ResNet50 Conv + BN 8.7× 23.55×
EfficientNet Conv + BN + SE 8.7× 23.55×
DenseNet Conv + BN 8.7× 23.55×
VGG19 主要为 Conv 8.7× 23.55×

精度保持:

  • INT8 量化推理精度与 GPU INT8 基线相当
  • 标准舍入和饱和语义

3.3 与最先进方案对比

方案 平台 频率 峰值吞吐 功耗 能效
MaRVIn - - 0.217 GOPS - 1.09 GOPS/W
CVA6-Accel - - 0.074 GOPS 0.7W 0.139 GOPS/W
RI5CY-Accel PYNQ Z2 55MHz 0.126 GOPS 0.3W 0.45 GOPS/W
ReNN-RV XCVU19P 200MHz 1.19 GOPS 0.5W 2.38 GOPS/W

对比提升:

  • 能效 vs MaRVIn: 2.18×
  • 能效 vs CVA6-Accel: 17.12×
  • 能效 vs RI5CY-Accel: 5.29×

3.4 硬件开销

资源 ReNN-RV RV-SCNN MaRVIn CVA6-Accel RI5CY-Accel
DSP 5 - - - -
FF (K) 18.1 可比 可比 更高 更高
LUT (K) 22.5 可比 可比 更高 更高
BRAM 4 - - - -

资源利用率: ReNN-RV 的逻辑资源利用率与 RV-SCNN 和 MaRVIn 相当,显著低于 PQNTRU、CVA6-Accel 和 RI5CY-Accel。


4. 为什么对 AI 硬件重要

4.1 RISC-V 生态的 DNN 加速方案

ReNN-RV 代表了 RISC-V 架构在 AI 加速领域的重要进展:

开源优势:

  • 基于开源 RISC-V ISA,无授权费用
  • 可定制指令扩展,适应特定应用
  • 活跃的社区支持和丰富的工具链

边缘部署价值:

  • 低功耗(0.5W)适合电池供电设备
  • 高能效(2.38 GOPS/W)延长续航时间
  • 可重构性支持多种 DNN 模型

4.2 MAC/非 MAC 混合计算的新范式

传统 DNN 加速器主要针对 MAC 操作优化,但现代网络中非 MAC 操作占比越来越高:

ReNN-RV 的解决方案:

特性 传统加速器 ReNN-RV
MAC 支持 ✅ 高效 ✅ 高效
非 MAC 支持 ❌ 低效/不支持 ✅ 高效
切换开销 高(需重新配置) 低(单周期)
面积开销 大(专用单元) 小(路径复用)

对神经符号 AI 的启示:

  • 神经符号 AI 涉及大量非 MAC 操作(逻辑运算、图遍历)
  • ReNN-RV 的可重构 PE 设计可为神经符号计算提供硬件基础
  • 路径复用思想可扩展到更复杂的操作类型

4.3 分层指令机制的设计思想

ReNN-RV 的三层指令模式(MMicro/MInter/MOuter)提供了重要的设计启示:

分层控制的价值:

  1. 微层级(MMicro): 细粒度控制,适应算子多样性
  2. 中间层(MInter): 层内调度,优化数据重用
  3. 外层(MOuter): 跨层协调,管理端到端执行

对其他加速器的借鉴:

  • 分层控制可降低整体控制开销
  • 不同层级可采用不同的优化策略
  • 支持渐进式复杂度管理

4.4 边缘 AI 芯片的设计趋势

ReNN-RV 体现了边缘 AI 芯片的几个重要趋势:

趋势 1:软硬件协同设计

  • 算法特性指导 ISA 设计
  • 硬件约束反馈算法优化
  • 系统级最优而非局部最优

趋势 2:可重构与专用化的平衡

  • 足够灵活以支持多种模型
  • 足够专用以实现高能效
  • 运行时重构降低静态开销

趋势 3:开源生态的利用

  • 基于开源 ISA 降低开发成本
  • 复用现有工具链和生态
  • 社区协作加速创新

5. 局限与未来方向

5.1 当前局限

  • 精度支持: 当前主要支持 INT8,FP16/BF16 扩展有待探索
  • 模型范围: 主要针对 CNN,Transformer 支持有待验证
  • 规模限制: FPGA 原型规模有限,ASIC 实现有待开展
  • 稀疏性: 未充分利用 DNN 的稀疏性特性

5.2 未来研究方向

技术演进:

  • 支持更低精度(INT4)和混合精度
  • 扩展到 Transformer 和注意力机制
  • 集成稀疏计算支持
  • 探索存算一体(CIM)结合

应用扩展:

  • tinyML 应用(< 1mW)
  • 实时视频处理
  • 多模态融合(视觉+语音)
  • 联邦学习边缘节点

6. 总结

ReNN-RV 代表了 RISC-V 架构 DNN 加速器的重要进展:

  1. ISA 创新: 计算感知的三层指令模式,紧凑编码减少开销
  2. 架构创新: 指令驱动流水线 + 运行时 PE 重构
  3. 性能突破: 14.6× 周期减少,10.1× 能效提升,10.3× 吞吐提升
  4. 设计范式: MAC/非 MAC 混合计算的高效支持

对于 AI 芯片设计,ReNN-RV 提供了以下关键启示:

  • 开源 ISA 的价值: RISC-V 为边缘 AI 提供了灵活基础
  • 可重构设计: 路径复用实现灵活性与效率的平衡
  • 分层控制: 降低控制开销的有效策略
  • 混合计算: 现代 DNN 需要同时支持 MAC 和非 MAC 操作

随着边缘 AI 应用的快速增长,类似 ReNN-RV 的开源、高效、灵活加速器将在物联网、可穿戴设备、智能传感器等场景中发挥重要作用。


参考文献

  1. Li, Y., Ye, T. T., Wong, N., Zhu, Z., Li, Y., & Zhao, W. (2026). ReNN-RV: Run-time PE Reconfiguration for DNN Inference Acceleration with Custom RISC-V ISA. IEEE Transactions on Computers. DOI: 10.1109/TC.2026.3669718
  2. Waterman, A., et al. (2014). The RISC-V instruction set manual. UC Berkeley Technical Report.
  3. Chen, Y., et al. (2016). Eyeriss: A spatial architecture for energy-efficient dataflow for convolutional neural networks. ISCA.
  4. Zhang, X., et al. (2020). RISC-V based heterogeneous reconfigurable multicore platform for AI applications. IEEE Access.