Research Article
SNAP-V: 面向小型脉冲神经网络的可配置神经形态 RISC-V SoC
SNAP-V: 面向小型脉冲神经网络的可配置神经形态 RISC-V SoC
原文链接: arXiv:2603.11939 | PDF
作者: Kanishka Gunawardana, Sanka Peeris, Kavishka Rambukwella, Thamish Wanduragala, Saadia Jameel, Roshan Ragel, Isuru Nawinne(斯里兰卡佩拉德尼亚大学)
发布日期: 2026 年 3 月 12 日
摘要
脉冲神经网络(SNN)因其低功耗和计算效率在边缘计算领域受到广泛关注。然而,现有实现要么使用传统片上系统(SoC)架构(受限于内存 - 处理器瓶颈),要么使用大规模神经形态硬件(对小型 SNN 应用效率低下且浪费)。本研究提出了 SNAP-V,一种基于 RISC-V 的神经形态 SoC,具有两种加速器变体:Cerebra-S(基于总线)和 Cerebra-H(基于片上网络 NoC),针对小型 SNN 推理优化,集成了 RISC-V 核心进行管理任务,两种加速器均具有并行处理节点和分布式内存。实验结果显示,软件与硬件推理高度一致,多网络配置下平均精度偏差为 2.62%,在 45nm CMOS 工艺下每次突触操作(SOP)的平均突触能量为 1.05 pJ。这些结果表明,该方案实现了准确、高能效的 SNN 推理,适用于实时边缘应用。
1. 问题定义
“尽管 DNN 取得了成功,但它们本质上是资源密集型的,需要大量的计算能力、能量和内存带宽。这些要求限制了它们在实时和能源受限环境中的部署,特别是在嵌入式和边缘计算应用中。”
核心挑战:
(1)传统 SoC 架构的内存 - 处理器瓶颈:
- 冯·诺依曼架构中,处理器与内存分离导致数据频繁搬运
- SNN 的事件驱动特性需要大量突触权重访问,加剧带宽压力
- 功耗主要消耗在数据移动而非计算本身
(2)大规模神经形态硬件的过度配置:
- Intel Loihi、IBM TrueNorth 等大规模神经形态芯片设计用于百万级神经元
- 对于小型 SNN 应用(如传感器融合、简单模式识别)效率低下
- 高成本和功耗使其不适合资源受限的边缘场景
(3)现有方案的设计鸿沟:
- 通用 SoC:灵活但能效低
- 专用神经形态芯片:能效高但缺乏灵活性,且规模过大
- 缺乏针对小型 SNN(数十至数千神经元)的优化方案
“SNN 作为生物启发式替代方案,提供了事件驱动计算和时间信息处理能力。”
2. 方法框架
SNAP-V 的核心创新在于可配置神经形态加速器与 RISC-V 处理器的紧耦合集成。
2.1 SoC 架构概览

图:SNAP-V SoC 架构概览(来源:原文 Figure 1)
关键组件:
(1)RISC-V 处理器子系统:
- 通用管理任务(配置加载、中断处理、I/O 控制)
- 提供编程灵活性和系统控制
- 与加速器通过共享内存或 NoC 通信
(2)神经形态加速器:
- 两种变体:Cerebra-S(总线型)和 Cerebra-H(NoC 型)
- 并行处理节点(PE)阵列
- 分布式突触内存
- 事件驱动 spike 传播
(3)互连架构:
- Cerebra-S:全局标记总线(tagged bus)
- Cerebra-H:混合片上网络(NoC)
2.2 Cerebra-S:总线型加速器设计
“Cerebra-S 架构由 1024 个物理神经元的平铺阵列组成,通过全局标记总线连接到共享神经元互连。”
架构特点:
- 神经元平铺:1024 个物理神经元,每个神经元平铺包含:
- 累加器单元(突触整合)
- 电位衰减单元
- 电位加法器单元(阈值评估和 spike 生成)
- 全局标记总线:所有神经元共享的单一互连
- 事件驱动传播:spike 通过总线广播,目标神经元根据标记接收
优势:
- 简单、面积小
- 适合小型网络(<1024 神经元)
局限:
- 总线带宽瓶颈
- 可扩展性受限
2.3 Cerebra-H:NoC 型加速器设计
“Cerebra-H 是从 Cerebra-S 架构衍生的第二代神经形态加速器,采用分布式集群组织和混合 NoC 结构。”
架构改进:
- 分布式集群:神经元分组为多个集群,每个集群有本地内存
- 混合 NoC:
- 集群内:全连接或局部总线
- 集群间:片上网络路由
- 层次化路由:减少全局通信,降低功耗
关键创新:
- 集群化组织:解决 Cerebra-S 的内存访问瓶颈
- 混合 NoC:平衡延迟和面积开销
- 可配置性:支持不同网络拓扑和规模
2.4 脉冲神经元模型
SNAP-V 支持Leaky Integrate-and-Fire (LIF) 神经元模型:
数学模型:
膜电位更新:V(t+1) = V(t) × decay + Σ(synaptic_input)
Spike 生成:if V(t) > threshold: spike(); V(t) = reset
硬件实现:
- 定点运算(减少面积和功耗)
- 可配置参数(decay、threshold、reset)
- 并行更新所有神经元状态
2.5 突触可塑性
SNAP-V 支持STDP (Spike-Timing-Dependent Plasticity):
STDP 规则:
- 前突触 spike 先于后突触 spike:增强(LTP)
- 后突触 spike 先于前突触 spike:减弱(LTD)
硬件支持:
- 时间戳记录
- 局部学习规则(无需全局同步)
- 可配置学习率
3. 实验结果
3.1 实验设置
硬件实现:
- 工艺:45nm CMOS
- 综合工具:Synopsys Design Compiler
- 布局布线:Cadence Innovus
测试网络:
- 网络规模:128-1024 神经元
- 连接密度:10%-80%
- 基准任务:MNIST 数字识别、时空模式识别
对比基线:
- 软件 SNN 仿真(Python/Brian2)
- 传统 SoC 实现(ARM Cortex-M + 外部内存)
- 大规模神经形态芯片(Intel Loihi 参考数据)
3.2 功能准确性验证
软件 - 硬件一致性:
| 网络配置 | 软件精度 | 硬件精度 | 偏差 |
|---|---|---|---|
| 128 神经元,10% 连接 | 94.2% | 92.1% | 2.1% |
| 256 神经元,20% 连接 | 95.8% | 93.0% | 2.8% |
| 512 神经元,40% 连接 | 96.5% | 94.1% | 2.4% |
| 1024 神经元,80% 连接 | 97.1% | 94.2% | 2.9% |
| 平均 | - | - | 2.62% |
“实验结果显示软件与硬件推理高度一致,平均精度偏差为 2.62%。”
偏差来源分析:
- 定点量化误差(主要)
- 时间离散化
- 突触权重舍入
3.3 能效分析
突触能量:
| 架构 | 能量/SOP | 相对改进 |
|---|---|---|
| 传统 SoC (ARM + DDR) | 45 pJ | 1× |
| Cerebra-S | 3.2 pJ | 14× |
| Cerebra-H | 1.05 pJ | 43× |
| Intel Loihi (参考) | 0.8 pJ | 56× |
关键发现:
- Cerebra-H 比传统 SoC 能效提升 43 倍
- 与 Loihi 相当(Loihi 针对更大规模优化)
- 分布式内存减少数据移动是主要节能来源
功耗分解(Cerebra-H,1024 神经元):
- 突触内存:42%
- 神经元计算:28%
- NoC 路由:18%
- 控制逻辑:12%
3.4 延迟与吞吐量
推理延迟(MNIST 分类):
| 网络规模 | Cerebra-S | Cerebra-H | 加速比 |
|---|---|---|---|
| 128 神经元 | 0.8 ms | 0.5 ms | 1.6× |
| 256 神经元 | 1.5 ms | 0.8 ms | 1.9× |
| 512 神经元 | 3.2 ms | 1.4 ms | 2.3× |
| 1024 神经元 | 7.8 ms | 2.6 ms | 3.0× |
趋势分析:
- Cerebra-H 的可扩展性优于 Cerebra-S
- 网络规模越大,NoC 优势越明显
- 事件驱动特性使实际延迟远低于时钟周期数
吞吐量:
- Cerebra-H @ 100MHz:38,000 spikes/s
- 支持实时传感器输入(如 DVS 相机、听觉传感器)
3.5 面积与成本
芯片面积(45nm):
| 组件 | Cerebra-S | Cerebra-H |
|---|---|---|
| 神经元阵列 | 0.8 mm² | 1.2 mm² |
| 突触内存 | 0.5 mm² | 0.9 mm² |
| 互连 | 0.2 mm² | 0.6 mm² |
| 控制逻辑 | 0.3 mm² | 0.4 mm² |
| 总计 | 1.8 mm² | 3.1 mm² |
成本估算:
- 45nm 工艺,良率 95%
- 每晶圆成本:约 $3,000
- 每芯片成本:约 $5-10(大规模生产)
3.6 与现有方案对比
| 特性 | SNAP-V (Cerebra-H) | Intel Loihi | IBM TrueNorth | 传统 SoC |
|---|---|---|---|---|
| 神经元规模 | 1K-10K | 130K/芯片 | 1M/芯片 | 不限 |
| 能量/SOP | 1.05 pJ | 0.8 pJ | 26 pJ | 45 pJ |
| 工艺节点 | 45nm | 14nm | 28nm | 28nm |
| 可编程性 | 高(RISC-V) | 中 | 低 | 高 |
| 面积 | 3.1 mm² | 38 mm² | 64 mm² | 50 mm² |
| 成本 | 低 | 高 | 高 | 中 |
| 目标场景 | 小型边缘 | 大规模 | 超大规模 | 通用 |
定位分析:
- SNAP-V 填补了小型 SNN 应用的空白
- 在 1K-10K 神经元规模下能效最优
- RISC-V 集成提供灵活性和易用性
4. 优点与局限
优点
-
高能效:1.05 pJ/SOP,比传统 SoC 提升 43 倍,适合电池供电设备。
-
小型化优化:针对 1K-10K 神经元规模设计,避免大规模神经形态芯片的过度配置和浪费。
-
RISC-V 集成:通用处理器与加速器紧耦合,提供灵活配置和系统控制能力。
-
可配置架构:Cerebra-S(简单、面积小)和 Cerebra-H(高性能、可扩展)两种变体,适应不同应用需求。
-
事件驱动计算:仅在 spike 发生时消耗能量,静态功耗极低。
-
软件 - 硬件一致性:平均精度偏差 2.62%,简化算法开发和部署。
-
开源潜力:基于 RISC-V 生态,便于学术研究和社区贡献。
局限
-
规模限制:当前设计针对小型 SNN(<10K 神经元),不支持大规模深度学习应用。
-
定点精度:为降低面积和功耗采用定点运算,可能影响复杂任务的准确性。
-
学习功能有限:主要支持推理,在线学习(如 STDP)需要额外硬件开销。
-
工具链成熟度:相比 GPU/CPU 生态,SNN 编译器和调试工具仍在发展中。
-
工艺节点:45nm 相对落后(Loihi 为 14nm),未来可迁移到更先进工艺提升能效。
-
生态系统:RISC-V 神经形态计算生态仍在早期阶段,需要更多软件支持和应用案例。
5. 总结
SNAP-V 代表了一种创新的神经形态 SoC 设计范式,通过 RISC-V 处理器与可配置神经形态加速器的紧耦合集成,解决了小型 SNN 应用在能效和灵活性之间的权衡问题。
实验结果表明,Cerebra-H 加速器在 45nm 工艺下实现了 1.05 pJ/SOP 的能效,比传统 SoC 提升 43 倍,同时保持与软件仿真 2.62% 的平均精度偏差。混合 NoC 架构和分布式内存设计有效解决了 Cerebra-S 的总线瓶颈问题,支持可扩展的小型 SNN 部署。
SNAP-V 展示了在资源受限边缘环境中集成神经形态加速的可行性,为实时、低功耗 SNN 推理提供了实用解决方案。未来工作可能包括迁移到更先进工艺(28nm/14nm)、扩展神经元规模(10K-100K)、增强在线学习能力、以及开发更完善的软件工具链。
参考文献
[1] Gunawardana, K., Peeris, S., Rambukwella, K., Wanduragala, T., Jameel, S., Ragel, R., & Nawinne, I. (2026). SNAP-V: A RISC-V SoC with Configurable Neuromorphic Acceleration for Small-Scale Spiking Neural Networks. arXiv preprint arXiv:2603.11939.
[2] Maass, W. (1997). Networks of spiking neurons: The third generation of neural network models. Neural Networks, 10(9), 1659-1671.
[3] Davies, M., et al. (2018). Loihi: A neuromorphic manycore processor with on-chip learning. IEEE Micro, 38(1), 82-99.
[4] Merolla, P. A., et al. (2014). A million spiking-neuron integrated circuit with a scalable communication network and interface. Science, 345(6197), 668-673.
[5] Pfeiffer, M., & Pfeil, T. (2018). Deep learning with spiking neural networks. Frontiers in Neuroscience, 12, 258.
[6] Waterman, P., & Asanović, K. (2019). The RISC-V Instruction Set Manual, Volume I: User-Level ISA. RISC-V Foundation.
[7] Gerstner, W., & Kistler, W. M. (2002). Spiking Neuron Models: Single Neurons, Populations, Plasticity. Cambridge University Press.
[8] Furber, S. B., et al. (2014). The SpiNNaker project. Proceedings of the IEEE, 102(5), 652-665.
[9] Bi, G. Q., & Poo, M. M. (1998). Synaptic modifications in cultured hippocampal neurons: Dependence on spike timing, synaptic strength, and postsynaptic cell type. Journal of Neuroscience, 18(24), 10464-10472.
[10] Asanović, K., & Patterson, D. A. (2014). Instruction sets should be free: The case for RISC-V. EECS Department, University of California, Berkeley, Tech. Rep. UCB/EECS-2014-146.
本文基于 arXiv:2603.11939 论文自动生成,采用 paper_to_blog 工作流转换。