Research Article
Hummingbird: A Smaller and Faster Large Language Model Accelerator on Embedded FPGA
Hummingbird: A Smaller and Faster Large Language Model Accelerator on Embedded FPGA
原文链接: arXiv:2507.03308
摘要
在边缘设备上部署大语言模型(LLM)仍然是一个重大挑战,因为LLM对计算和内存的需求很高,而边缘设备的硬件资源有限。虽然嵌入式FPGA在传统深度神经网络中已展现出性能和能效优势,但其在LLM推理中的潜力尚未被充分挖掘。现有研究主要依赖昂贵的高端云级FPGA硬件,且仅在相对较小的LLM上取得成果,限制了实际应用价值。
本文提出 Hummingbird,一种专为嵌入式FPGA设计的LLM加速器。Hummingbird 更小——在KV260和ZCU104平台上相比现有研究节省67% LUT、39% DSP和42%功耗;更强——支持LLaMA3-8B和更长上下文,通过卸载策略突破嵌入式FPGA典型的4GB内存限制;更快——在KV260和ZCU104上分别实现4.8 token/s和8.6 token/s的LLaMA3-8B推理速度,模型带宽利用率达到93-94%,超越先前LLaMA2-7B基线的4.9 token/s和84%带宽利用率。
1. 问题定义
“Deploying LLM onto embedded FPGA has become more daunting than ever before. Existing research has primarily focused on deploying relatively small LLM on high-end, cloud FPGAs.”
边缘AI应用(如隐私保护聊天界面和具身AI系统)需要在设备端直接支持LLM推理,而非依赖云端。FPGA长期以来被认为是加速深度学习工作负载的高效边缘解决方案,但LLM规模的爆炸性增长带来了前所未有的挑战。
现有研究存在以下关键局限:
- 硬件成本高昂:主要依赖配备HBM的云级FPGA(如Alveo U280/U250),不适合边缘部署
- 模型规模受限:最大仅支持7B参数模型,且上下文长度受限(通常仅1K tokens)
- 带宽利用率低:现有设计带宽利用率仅70-84%,存在显著优化空间
- 资源消耗过大:无法在低成本嵌入式FPGA上部署
Hummingbird 针对三个核心研究问题:
- 如何进一步降低资源消耗,使加速器能在更小、更便宜的嵌入式FPGA上部署?
- 如何实现更快的解码吞吐量和更高的内存带宽利用率?
- 如何在不依赖进一步压缩技术的情况下,部署比LLaMA2-7B更大、更强的模型并支持更长token序列?
2. 方法框架
图:Hummingbird在KV260和ZCU104平台上的系统架构(来源:原文 Figure 1)
Hummingbird的整体架构包含三个核心组件:
内存管理单元(MMU):协调片上和片外内存访问,包括KV Cache的缓冲管理。
向量处理单元(VPU):执行密集的通用矩阵-向量乘法(GEMV)操作,这是LLM推理的核心计算。
标量处理单元(SPU):处理逐元素操作,包括旋转位置编码(RoPE)、softmax、层归一化、SiLU激活和量化。
2.1 核心创新点
图:嵌入式FPGA上LLM加速器的现有低效问题和提出的改进方案(来源:原文 Figure 2)
Hummingbird提出三项关键优化:
1. DSP优化计算引擎:采用INT24定点整数实现,在完整DSP链(触发器密集)和MAC树(DSP低效)之间取得平衡。通过分段DSP链混合架构,实现67% LUT、39% DSP和42%功耗节省。
2. 列对齐内存访问策略:针对Zynq内存控制器中AXI端口仲裁导致的带宽损失问题,提出列对齐内存访问策略,将模型带宽利用率从SOTA的84%提升至93-94%。
3. 嵌入表卸载与GQA支持:将存储密集的嵌入表卸载到外部闪存,并设计支持分组查询注意力(GQA)的高效数据流,将支持的上下文长度扩展至4096 tokens。
3. 实验结果
3.1 资源消耗对比
| 架构 | LUT | FFs | DSP | 激活重用 | AXPY支持 |
|---|---|---|---|---|---|
| FP16 MAC Tree | 31,872 | 44,809 | 256 | No | No |
| INT24 MAC Tree | 0 | 9,936 | 256 | No | No |
| INT24 MAC Chain | 0 | 59,535 | 128 | No | No |
| Hybrid | 0 | 8,784 | 160 | No | No |
| Hybrid+ (无优化) | 6,570 | 11,856 | 160 | Yes | Yes |
| Hybrid+ (有优化) | 1,962 | 4,355 | 148 | Yes | Yes |
表:计算引擎资源利用率对比(来源:原文 Table I)
3.2 带宽利用率提升
| 平台 | 理论带宽 | 现有利用率 | Hummingbird利用率 | 提升 |
|---|---|---|---|---|
| KV260 | 19.2 GB/s | 84% | 94% | +10% |
| ZCU104 | 34.1 GB/s | - | 93% | - |
表:带宽利用率对比
3.3 与现有加速器性能对比
| 加速器 | 设备 | 带宽(GB/s) | 模型 | 量化 | Token/s | 带宽效率 | 功耗效率 |
|---|---|---|---|---|---|---|---|
| FlightLLM | U280 | 460 | LLaMA2-7B | W4 | 55 | 65% | 1.22 |
| Chen et al. | U280 | 460 | GPT2-345M | W8 | 204 | 23% | 0.66 |
| LoopLynx | U50 | 201 | GPT2-345M | W8 | 260 | 59% | 0.63 |
| ChatOPU | U200 | 76.8 | OPT-1.3B | SparseW16 | 43.2 | 72% | - |
| LightMamba | VCK190 | 12/76.8 | Mamba2-2.7B | W4 | 166.2 | 66% | - |
| Li et al. [11] | KV260 | 19.2 | LLaMA2-7B | W4 | 4.9 | 84% | 0.74 |
| LlamaF | ZCU102 | 19.2 | LLaMA-1.1B | W8 | 1.48 | 8% | 0.09 |
| Hummingbird (KV260) | KV260 | 19.2 | LLaMA3-8B | W4 | 4.8 | 94% | 1.44 |
| Hummingbird (ZCU104) | ZCU104 | 34.1 | LLaMA3-8B | W4 | 8.6 | 93% | 1.39 |
表:不同FPGA平台上LLM加速器性能对比(来源:原文 Table V)
3.4 与Jetson GPU对比
| 平台 | 带宽(GB/s) | Token/s | 带宽效率 | 功耗效率 |
|---|---|---|---|---|
| Jetson Orin Nano | 68 | 15 | 79% | 1.0 |
| Jetson Orin AGX | 204.8 | 40 | 71% | 0.66 |
| Hummingbird (KV260) | 19.2 | 4.8 | 94% | 1.44 |
| Hummingbird (ZCU104) | 34.1 | 8.6 | 93% | 1.39 |
表:与Jetson Orin系列GPU对比(来源:原文 Table VI)
4. 优点与局限
优点
-
极致资源效率:通过DSP优化计算引擎,实现67% LUT、39% DSP和42%功耗节省,是首个能在低成本Spartan UltraScale+ FPGA上部署的LLM加速器
-
突破内存限制:通过嵌入表卸载和GQA支持,在4GB内存设备上部署8B参数模型并支持4K上下文,是先前工作的4倍
-
接近理论极限的带宽利用率:列对齐内存访问策略实现93-94%带宽利用率,接近理论极限(95%,仅受刷新周期影响)
-
超越嵌入式GPU的能效:在带宽效率和功耗效率上均超越Jetson Orin系列GPU
局限
-
模型支持范围:当前仅支持LLaMA3-8B,对其他架构(如Mamba、RWKV等)的支持需要额外工作
-
上下文长度上限:虽然支持4K上下文,但仍低于LLaMA3原生支持的8K,受限于嵌入式设备的内存容量
-
量化精度:采用4-bit权重量化和8-bit KV Cache量化,可能对某些精度敏感任务产生影响
-
硬件平台依赖:部分优化(如列对齐访问)针对Zynq UltraScale+平台设计,迁移到其他FPGA平台需要适配
5. 总结
Hummingbird代表了嵌入式FPGA上LLM推理加速的重要进展。通过DSP优化计算引擎、列对齐内存访问策略和嵌入表卸载三项核心创新,Hummingbird在资源效率、带宽利用率和模型支持能力上均实现了突破。
该工作的重要意义在于:
- 证明了在低成本嵌入式FPGA上部署8B参数LLM的可行性
- 为边缘AI应用提供了高性能、低成本的LLM推理解决方案
- 开辟了在Spartan UltraScale+等成本优化型FPGA上部署LLM的新路径
对于AI芯片设计研究,Hummingbird的优化思路——特别是针对内存带宽瓶颈的列对齐访问策略和DSP级优化技术——具有重要的参考价值。
参考文献
- Jindong Li et al., “Hummingbird: A Smaller and Faster Large Language Model Accelerator on Embedded FPGA,” arXiv:2507.03308, 2025.
- Jindong Li et al., “Pushing up to the limit of memory bandwidth and capacity utilization for efficient llm decoding on embedded fpga,” DATE, 2025.
- Shulin Zeng et al., “FlightLLM: Efficient large language model inference with a complete mapping flow on fpgas,” FPGA, 2024.
- Aaron Grattafiori et al., “The llama 3 herd of models,” arXiv:2407.21783, 2024.