Research Article

Hummingbird: A Smaller and Faster Large Language Model Accelerator on Embedded FPGA

March 31, 2026 · research, ai, ml

Rate this article:

0.0 (0 votes)

Hummingbird: A Smaller and Faster Large Language Model Accelerator on Embedded FPGA

原文链接: arXiv:2507.03308 PDF

摘要

在边缘设备上部署大语言模型（LLM）仍然是一个重大挑战，因为LLM对计算和内存的需求很高，而边缘设备的硬件资源有限。虽然嵌入式FPGA在传统深度神经网络中已展现出性能和能效优势，但其在LLM推理中的潜力尚未被充分挖掘。现有研究主要依赖昂贵的高端云级FPGA硬件，且仅在相对较小的LLM上取得成果，限制了实际应用价值。

本文提出 Hummingbird，一种专为嵌入式FPGA设计的LLM加速器。Hummingbird 更小——在KV260和ZCU104平台上相比现有研究节省67% LUT、39% DSP和42%功耗；更强——支持LLaMA3-8B和更长上下文，通过卸载策略突破嵌入式FPGA典型的4GB内存限制；更快——在KV260和ZCU104上分别实现4.8 token/s和8.6 token/s的LLaMA3-8B推理速度，模型带宽利用率达到93-94%，超越先前LLaMA2-7B基线的4.9 token/s和84%带宽利用率。

1. 问题定义

“Deploying LLM onto embedded FPGA has become more daunting than ever before. Existing research has primarily focused on deploying relatively small LLM on high-end, cloud FPGAs.”

边缘AI应用（如隐私保护聊天界面和具身AI系统）需要在设备端直接支持LLM推理，而非依赖云端。FPGA长期以来被认为是加速深度学习工作负载的高效边缘解决方案，但LLM规模的爆炸性增长带来了前所未有的挑战。

现有研究存在以下关键局限：

硬件成本高昂：主要依赖配备HBM的云级FPGA（如Alveo U280/U250），不适合边缘部署
模型规模受限：最大仅支持7B参数模型，且上下文长度受限（通常仅1K tokens）
带宽利用率低：现有设计带宽利用率仅70-84%，存在显著优化空间
资源消耗过大：无法在低成本嵌入式FPGA上部署

Hummingbird 针对三个核心研究问题：

如何进一步降低资源消耗，使加速器能在更小、更便宜的嵌入式FPGA上部署？
如何实现更快的解码吞吐量和更高的内存带宽利用率？
如何在不依赖进一步压缩技术的情况下，部署比LLaMA2-7B更大、更强的模型并支持更长token序列？

2. 方法框架

Hummingbird系统架构 图：Hummingbird在KV260和ZCU104平台上的系统架构（来源：原文 Figure 1）

Hummingbird的整体架构包含三个核心组件：

内存管理单元（MMU）：协调片上和片外内存访问，包括KV Cache的缓冲管理。

向量处理单元（VPU）：执行密集的通用矩阵-向量乘法（GEMV）操作，这是LLM推理的核心计算。

标量处理单元（SPU）：处理逐元素操作，包括旋转位置编码（RoPE）、softmax、层归一化、SiLU激活和量化。

2.1 核心创新点

优化技术概览 图：嵌入式FPGA上LLM加速器的现有低效问题和提出的改进方案（来源：原文 Figure 2）

Hummingbird提出三项关键优化：

1. DSP优化计算引擎：采用INT24定点整数实现，在完整DSP链（触发器密集）和MAC树（DSP低效）之间取得平衡。通过分段DSP链混合架构，实现67% LUT、39% DSP和42%功耗节省。

2. 列对齐内存访问策略：针对Zynq内存控制器中AXI端口仲裁导致的带宽损失问题，提出列对齐内存访问策略，将模型带宽利用率从SOTA的84%提升至93-94%。

3. 嵌入表卸载与GQA支持：将存储密集的嵌入表卸载到外部闪存，并设计支持分组查询注意力（GQA）的高效数据流，将支持的上下文长度扩展至4096 tokens。

3. 实验结果

3.1 资源消耗对比

架构	LUT	FFs	DSP	激活重用	AXPY支持
FP16 MAC Tree	31,872	44,809	256	No	No
INT24 MAC Tree	0	9,936	256	No	No
INT24 MAC Chain	0	59,535	128	No	No
Hybrid	0	8,784	160	No	No
Hybrid+ (无优化)	6,570	11,856	160	Yes	Yes
Hybrid+ (有优化)	1,962	4,355	148	Yes	Yes

表：计算引擎资源利用率对比（来源：原文 Table I）

3.2 带宽利用率提升

平台	理论带宽	现有利用率	Hummingbird利用率	提升
KV260	19.2 GB/s	84%	94%	+10%
ZCU104	34.1 GB/s	-	93%	-

表：带宽利用率对比

3.3 与现有加速器性能对比

加速器	设备	带宽(GB/s)	模型	量化	Token/s	带宽效率	功耗效率
FlightLLM	U280	460	LLaMA2-7B	W4	55	65%	1.22
Chen et al.	U280	460	GPT2-345M	W8	204	23%	0.66
LoopLynx	U50	201	GPT2-345M	W8	260	59%	0.63
ChatOPU	U200	76.8	OPT-1.3B	SparseW16	43.2	72%	-
LightMamba	VCK190	12/76.8	Mamba2-2.7B	W4	166.2	66%	-
Li et al. [11]	KV260	19.2	LLaMA2-7B	W4	4.9	84%	0.74
LlamaF	ZCU102	19.2	LLaMA-1.1B	W8	1.48	8%	0.09
Hummingbird (KV260)	KV260	19.2	LLaMA3-8B	W4	4.8	94%	1.44
Hummingbird (ZCU104)	ZCU104	34.1	LLaMA3-8B	W4	8.6	93%	1.39

表：不同FPGA平台上LLM加速器性能对比（来源：原文 Table V）

3.4 与Jetson GPU对比

平台	带宽(GB/s)	Token/s	带宽效率	功耗效率
Jetson Orin Nano	68	15	79%	1.0
Jetson Orin AGX	204.8	40	71%	0.66
Hummingbird (KV260)	19.2	4.8	94%	1.44
Hummingbird (ZCU104)	34.1	8.6	93%	1.39

表：与Jetson Orin系列GPU对比（来源：原文 Table VI）

4. 优点与局限

优点

极致资源效率：通过DSP优化计算引擎，实现67% LUT、39% DSP和42%功耗节省，是首个能在低成本Spartan UltraScale+ FPGA上部署的LLM加速器
突破内存限制：通过嵌入表卸载和GQA支持，在4GB内存设备上部署8B参数模型并支持4K上下文，是先前工作的4倍
接近理论极限的带宽利用率：列对齐内存访问策略实现93-94%带宽利用率，接近理论极限（95%，仅受刷新周期影响）
超越嵌入式GPU的能效：在带宽效率和功耗效率上均超越Jetson Orin系列GPU

局限

模型支持范围：当前仅支持LLaMA3-8B，对其他架构（如Mamba、RWKV等）的支持需要额外工作
上下文长度上限：虽然支持4K上下文，但仍低于LLaMA3原生支持的8K，受限于嵌入式设备的内存容量
量化精度：采用4-bit权重量化和8-bit KV Cache量化，可能对某些精度敏感任务产生影响
硬件平台依赖：部分优化（如列对齐访问）针对Zynq UltraScale+平台设计，迁移到其他FPGA平台需要适配

5. 总结

Hummingbird代表了嵌入式FPGA上LLM推理加速的重要进展。通过DSP优化计算引擎、列对齐内存访问策略和嵌入表卸载三项核心创新，Hummingbird在资源效率、带宽利用率和模型支持能力上均实现了突破。

该工作的重要意义在于：

证明了在低成本嵌入式FPGA上部署8B参数LLM的可行性
为边缘AI应用提供了高性能、低成本的LLM推理解决方案
开辟了在Spartan UltraScale+等成本优化型FPGA上部署LLM的新路径

对于AI芯片设计研究，Hummingbird的优化思路——特别是针对内存带宽瓶颈的列对齐访问策略和DSP级优化技术——具有重要的参考价值。

参考文献

Jindong Li et al., “Hummingbird: A Smaller and Faster Large Language Model Accelerator on Embedded FPGA,” arXiv:2507.03308, 2025.
Jindong Li et al., “Pushing up to the limit of memory bandwidth and capacity utilization for efficient llm decoding on embedded fpga,” DATE, 2025.
Shulin Zeng et al., “FlightLLM: Efficient large language model inference with a complete mapping flow on fpgas,” FPGA, 2024.
Aaron Grattafiori et al., “The llama 3 herd of models,” arXiv:2407.21783, 2024.