Research Article

ReNN-RV: Run-time PE Reconfiguration for DNN Inference Acceleration with Custom RISC-V ISA

April 01, 2026 · research, ai-accelerator, risc-v, edge-ai

Rate this article:

0.0 (0 votes)

ReNN-RV: Run-time PE Reconfiguration for DNN Inference Acceleration with Custom RISC-V ISA

原文链接: IEEE TC 2026 Authors: Yueting Li, Terry Tao Ye, Ngai Wong, Zhenhua Zhu, Yongfu Li, Weisheng Zhao

摘要

ReNN-RV 是一种面向边缘设备的 RISC-V 架构 DNN 加速器，通过计算感知的 ISA 扩展和运行时 PE 重构机制，实现了 MAC 与非 MAC 操作的无缝切换。该设计采用指令驱动的处理流水线，支持细粒度的任务调度，在 FPGA 平台上实现了 14.6× 的周期数减少和 15.3× 的执行时间降低。相比现有方案，ReNN-RV 在能效和计算吞吐上分别实现了 10.1× 和 10.3× 的提升，为资源受限平台上的高效 DNN 推理提供了新范式。

1. 问题定义：边缘 DNN 推理的挑战

1.1 边缘 AI 的严苛约束

深度神经网络（DNN）正越来越多地部署在资源受限的边缘设备上：

“Deep neural networks (DNNs) are increasingly deployed on resource-limited platforms under stringent power budgets.”

边缘部署的核心挑战:

功耗限制：通常要求 < 1W 甚至 < 100mW
延迟要求：实时应用需要毫秒级响应
资源受限：有限的计算单元和存储容量
成本敏感：无法使用高端 GPU 或专用 ASIC

1.2 RISC-V 扩展的机遇与局限

RISC-V 作为开源指令集架构，为边缘 AI 加速器提供了灵活的基础：

现有方案的问题:

方案类型	代表工作	局限
固定通信映射	RV-SCNN	配置开销低但灵活性差
每周期可重构映射	MaRVIn	灵活性高但能耗代价大
专用加速器耦合	CVA6-Accel, RI5CY-Accel	无法持续保持高 PE 利用率

核心问题: 现有方案无法高效支持混合 MAC/非 MAC 操作

1.3 三个关键观察

论文通过分析现代 DNN 的计算特性，发现了三个关键挑战：

观察 1：DNN 计算模式多样性

1×1 卷积、n×n 卷积、BatchNorm 等不同算子具有不同的数据流特征
传统 ISA 扩展无法高效支持这种多样性

观察 2：层间数据流差异导致 PE 利用率低下

不同层的计算-内存比例和重用局部性不同
固定硬件资源配置导致利用率不均衡

观察 3：非 MAC 操作成为计算负担

EfficientNetV2、DenseNet 等现代网络中非 MAC 操作占比显著
现有加速器主要针对 MAC 优化，非 MAC 操作效率低下

EfficientNetV2 计算分布:
┌─────────────────────────────────────┐
│  MAC: 60%    ████████████████████   │
│  Non-MAC: 40% ██████████████         │
└─────────────────────────────────────┘

DenseNet 计算分布:
┌─────────────────────────────────────┐
│  MAC: 70%    █████████████████████  │
│  Non-MAC: 30% ██████████            │
└─────────────────────────────────────┘

2. ReNN-RV 架构设计

2.1 总体架构

ReNN-RV 采用硬件-软件协同设计，包含三个核心组件：

┌─────────────────────────────────────────────────────────────┐
│                    ReNN-RV Architecture                     │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  ┌─────────────────────────────────────────────────────┐   │
│  │         Computation-Aware RISC-V ISA Extension       │   │
│  │  ┌──────────┐  ┌──────────┐  ┌──────────┐          │   │
│  │  │ MMicro   │  │ MInter   │  │ MOuter   │          │   │
│  │  │ (微层级) │  │ (中间层) │  │ (外层)   │          │   │
│  │  └──────────┘  └──────────┘  └──────────┘          │   │
│  └─────────────────────────────────────────────────────┘   │
│                           │                                  │
│                           ▼                                  │
│  ┌─────────────────────────────────────────────────────┐   │
│  │         Instruction-Driven Processing Pipeline       │   │
│  │  ┌─────┐  ┌─────┐  ┌─────┐  ┌─────┐  ┌─────┐      │   │
│  │  │ IF  │→│ ID  │→│ EX  │→│ MEM │→│ WB  │      │   │
│  │  └─────┘  └─────┘  └─────┘  └─────┘  └─────┘      │   │
│  └─────────────────────────────────────────────────────┘   │
│                           │                                  │
│                           ▼                                  │
│  ┌─────────────────────────────────────────────────────┐   │
│  │         Reconfigurable PE (RePE) Accelerator         │   │
│  │  ┌─────────────────────────────────────────────┐   │   │
│  │  │  Path MUX  │  DSP Sum-tree  │  Shared Logic  │   │   │
│  │  └─────────────────────────────────────────────┘   │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                              │
└─────────────────────────────────────────────────────────────┘

2.2 计算感知 ISA 扩展

创新：三层指令模式

论文提出了三种指令模式，分别对应不同层级的控制粒度：

模式	层级	功能	典型应用
MMicro	微层级	PE 级配置、计算控制	单个卷积核计算
MInter	中间层	层内任务调度	单层网络前向传播
MOuter	外层	跨层协调	多层网络端到端推理

紧凑编码策略:

指令格式（32位）:
┌────────┬────────┬────────┬────────┬────────┬────────┐
│  Mode  │ Opcode │  rs1   │  rs2   │  rd    │ Config │
│  (2b)  │  (5b)  │  (5b)  │  (5b)  │  (5b)  │ (10b)  │
└────────┴────────┴────────┴────────┴────────┴────────┘

模式特定字段重定义:
- MMicro: 配置 PE 行列、计算模式
- MInter: 配置循环次数、数据重用
- MOuter: 配置层间连接、数据流

关键优势:

一次指令设置后，层内执行无需重新配置
减少控制指令开销
支持细粒度任务调度

2.3 指令驱动处理流水线

三级流水线设计:

Cycle 1:  IF (Instruction Fetch)
         ↓
Cycle 2:  ID (Instruction Decode) - 计算感知解码
         ↓
Cycle 3:  EX (Execute) - RePE 执行
         ↓
Cycle 4:  MEM (Memory Access)
         ↓
Cycle 5:  WB (Write Back)

与传统设计的对比:

特性	传统 RISC-V	ReNN-RV
解码周期	25 周期	1 周期
指令利用率	低（字段浪费）	高（紧凑编码）
可扩展性	受限	良好
控制开销	高	低

2.4 运行时可重构 PE (RePE)

核心创新：路径复用机制

RePE 通过配置路径多路选择器（Path MUX），在运行时动态切换计算模式：

┌─────────────────────────────────────────────────────────┐
│                    RePE Structure                        │
├─────────────────────────────────────────────────────────┤
│                                                          │
│   Input A ──┐                                           │
│              ├──→ ┌─────────┐ ──→ ┌─────────┐ ──→ Output│
│   Input B ──┘     │ Path    │     │  DSP    │           │
│                   │  MUX    │     │ Sum-tree│           │
│   Config ───────→ └─────────┘     └─────────┘           │
│                                                          │
│   Supported Operations:                                  │
│   ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐   │
│   │   ADD   │  │   SUB   │  │   MUL   │  │   DIV   │   │
│   └─────────┘  └─────────┘  └─────────┘  └─────────┘   │
│   ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐   │
│   │   MAC   │  │  Logic  │  │   BN    │  │  Other  │   │
│   └─────────┘  └─────────┘  └─────────┘  └─────────┘   │
│                                                          │
└─────────────────────────────────────────────────────────┘

重构机制:

MAC 模式: 配置为乘法累加，支持卷积运算
非 MAC 模式: 配置为加法、减法、除法、逻辑运算，支持 BatchNorm、激活函数等
切换延迟: 单周期完成模式切换
面积开销: 可忽略（通过路径复用实现）

3. 实验结果

3.1 矩阵运算性能

在 8-bit 矩阵乘法任务上的对比（A ∈ R¹⁰ˣ¹⁰, B ∈ R¹⁰ˣ¹⁰²⁴）：

指标	Caesar	BLADE	C-SRAM	ReNN-RV	提升
周期数	基准	-	-	14.6× 减少	vs 基线
执行时间	基准	-	-	15.3× 减少	vs 基线
每 PE 能耗	基准	-	-	3.02× 降低	vs 基线

3.2 DNN 模型端到端性能

在五个代表性 DNN 模型上的评估：

模型	主要操作	延迟降低	能耗降低
MobileNetV2	Conv + BN	8.7×	23.55×
ResNet50	Conv + BN	8.7×	23.55×
EfficientNet	Conv + BN + SE	8.7×	23.55×
DenseNet	Conv + BN	8.7×	23.55×
VGG19	主要为 Conv	8.7×	23.55×

精度保持:

INT8 量化推理精度与 GPU INT8 基线相当
标准舍入和饱和语义

3.3 与最先进方案对比

方案	平台	频率	峰值吞吐	功耗	能效
MaRVIn	-	-	0.217 GOPS	-	1.09 GOPS/W
CVA6-Accel	-	-	0.074 GOPS	0.7W	0.139 GOPS/W
RI5CY-Accel	PYNQ Z2	55MHz	0.126 GOPS	0.3W	0.45 GOPS/W
ReNN-RV	XCVU19P	200MHz	1.19 GOPS	0.5W	2.38 GOPS/W

对比提升:

能效 vs MaRVIn: 2.18×
能效 vs CVA6-Accel: 17.12×
能效 vs RI5CY-Accel: 5.29×

3.4 硬件开销

资源	ReNN-RV	RV-SCNN	MaRVIn	CVA6-Accel	RI5CY-Accel
DSP	5	-	-	-	-
FF (K)	18.1	可比	可比	更高	更高
LUT (K)	22.5	可比	可比	更高	更高
BRAM	4	-	-	-	-

资源利用率: ReNN-RV 的逻辑资源利用率与 RV-SCNN 和 MaRVIn 相当，显著低于 PQNTRU、CVA6-Accel 和 RI5CY-Accel。

4. 为什么对 AI 硬件重要

4.1 RISC-V 生态的 DNN 加速方案

ReNN-RV 代表了 RISC-V 架构在 AI 加速领域的重要进展：

开源优势:

基于开源 RISC-V ISA，无授权费用
可定制指令扩展，适应特定应用
活跃的社区支持和丰富的工具链

边缘部署价值:

低功耗（0.5W）适合电池供电设备
高能效（2.38 GOPS/W）延长续航时间
可重构性支持多种 DNN 模型

4.2 MAC/非 MAC 混合计算的新范式

传统 DNN 加速器主要针对 MAC 操作优化，但现代网络中非 MAC 操作占比越来越高：

ReNN-RV 的解决方案:

特性	传统加速器	ReNN-RV
MAC 支持	✅ 高效	✅ 高效
非 MAC 支持	❌ 低效/不支持	✅ 高效
切换开销	高（需重新配置）	低（单周期）
面积开销	大（专用单元）	小（路径复用）

对神经符号 AI 的启示:

神经符号 AI 涉及大量非 MAC 操作（逻辑运算、图遍历）
ReNN-RV 的可重构 PE 设计可为神经符号计算提供硬件基础
路径复用思想可扩展到更复杂的操作类型

4.3 分层指令机制的设计思想

ReNN-RV 的三层指令模式（MMicro/MInter/MOuter）提供了重要的设计启示：

分层控制的价值:

微层级（MMicro）: 细粒度控制，适应算子多样性
中间层（MInter）: 层内调度，优化数据重用
外层（MOuter）: 跨层协调，管理端到端执行

对其他加速器的借鉴:

分层控制可降低整体控制开销
不同层级可采用不同的优化策略
支持渐进式复杂度管理

4.4 边缘 AI 芯片的设计趋势

ReNN-RV 体现了边缘 AI 芯片的几个重要趋势：

趋势 1：软硬件协同设计

算法特性指导 ISA 设计
硬件约束反馈算法优化
系统级最优而非局部最优

趋势 2：可重构与专用化的平衡

足够灵活以支持多种模型
足够专用以实现高能效
运行时重构降低静态开销

趋势 3：开源生态的利用

基于开源 ISA 降低开发成本
复用现有工具链和生态
社区协作加速创新

5. 局限与未来方向

5.1 当前局限

精度支持: 当前主要支持 INT8，FP16/BF16 扩展有待探索
模型范围: 主要针对 CNN，Transformer 支持有待验证
规模限制: FPGA 原型规模有限，ASIC 实现有待开展
稀疏性: 未充分利用 DNN 的稀疏性特性

5.2 未来研究方向

技术演进:

支持更低精度（INT4）和混合精度
扩展到 Transformer 和注意力机制
集成稀疏计算支持
探索存算一体（CIM）结合

应用扩展:

tinyML 应用（< 1mW）
实时视频处理
多模态融合（视觉+语音）
联邦学习边缘节点

6. 总结

ReNN-RV 代表了 RISC-V 架构 DNN 加速器的重要进展：

ISA 创新: 计算感知的三层指令模式，紧凑编码减少开销
架构创新: 指令驱动流水线 + 运行时 PE 重构
性能突破: 14.6× 周期减少，10.1× 能效提升，10.3× 吞吐提升
设计范式: MAC/非 MAC 混合计算的高效支持

对于 AI 芯片设计，ReNN-RV 提供了以下关键启示：

开源 ISA 的价值: RISC-V 为边缘 AI 提供了灵活基础
可重构设计: 路径复用实现灵活性与效率的平衡
分层控制: 降低控制开销的有效策略
混合计算: 现代 DNN 需要同时支持 MAC 和非 MAC 操作

随着边缘 AI 应用的快速增长，类似 ReNN-RV 的开源、高效、灵活加速器将在物联网、可穿戴设备、智能传感器等场景中发挥重要作用。

参考文献

Li, Y., Ye, T. T., Wong, N., Zhu, Z., Li, Y., & Zhao, W. (2026). ReNN-RV: Run-time PE Reconfiguration for DNN Inference Acceleration with Custom RISC-V ISA. IEEE Transactions on Computers. DOI: 10.1109/TC.2026.3669718
Waterman, A., et al. (2014). The RISC-V instruction set manual. UC Berkeley Technical Report.
Chen, Y., et al. (2016). Eyeriss: A spatial architecture for energy-efficient dataflow for convolutional neural networks. ISCA.
Zhang, X., et al. (2020). RISC-V based heterogeneous reconfigurable multicore platform for AI applications. IEEE Access.