Research Article
VLA-Perf: VLA 推理性能全景分析——NVIDIA 首个系统性研究
VLA-Perf: VLA 推理性能全景分析——NVIDIA 首个系统性研究
原文链接: arXiv:2602.18397 Code
机构: NVIDIA Research
作者: Wenqi Jiang, Jason Clemons, Karu Sankaralingam, Christos Kozyrakis
核心亮点
本文提出 VLA-Perf,一个基于 roofline 模型的分析性能工具,用于预测任意 VLA 模型和推理系统组合的最优推理延迟和吞吐量。作者使用 VLA-Perf 进行了首个 VLA 推理性能全景系统研究,从模型设计(模型规模、架构选择、长上下文、异步推理、双系统管道)和部署角度(设备端、边缘服务器、云端)分析了15 个关键发现,为未来 VLA 模型和推理系统设计提供实践指导。
“给定标准 RGB 相机帧率通常为 24-60 Hz,我们定义 10 Hz 推理频率为可接受(接近视频摄入率),100 Hz 为高性能(超过常见摄入率)。”
1. 问题定义
1.1 VLA 推理性能挑战
Vision-Language-Action (VLA) 模型最近在各类具身 AI 任务中展现出令人印象深刻的能力。然而,在真实世界机器人上部署 VLA 模型需要严格的实时推理约束,而由于模型架构和推理系统的大型组合空间,VLA 的推理性能全景仍然知之甚少。
“执行相同的 VLA 模型 across 不同的推理系统可能导致多个数量级的性能差异。”
核心研究问题:如何设计未来的 VLA 模型和系统以支持实时推理?
从模型设计角度:
- 在实现实时推理的同时,模型规模可以扩展到多大?
- 拥有数千视觉帧的长上下文 VLA 是否实际可行?
- 自回归与基于扩散的动作专家如何影响推理性能?
- 去噪步骤和动作块大小如何影响性能?
- 异步或双系统推理能获得多少性能提升?
从系统角度:
- 推理应该在哪里执行——设备端、服务器上、还是设备 - 服务器协作?
- 如何根据可用的 GPU 类型选择推理硬件?
- 网络性能在服务器端推理系统中有多关键?
- 需要什么样的模型和系统组合来支持从 10 Hz 到 100 Hz 以上的 VLA 推理?
1.2 现有方法的局限
系统配置多样性: prior 研究中的推理系统配置差异很大
- 设备端 GPU(嵌入式机器人)
- 边缘服务器 GPU(靠近机器人)
- 云端加速器(远程服务器)
模型设计局限:现有 VLA 模型通常针对特定应用 - 系统配对设计,缺乏通用性探索
2. 方法框架
2.1 VLA-Perf 概述
VLA-Perf 是一个基于 roofline 模型的分析性能工具,用于 VLA 推理。它将 VLA 推理抽象为 interleaved 的模型组件和数据传输:
图:VLA-Perf 将 VLA 推理抽象为模型组件 interleaved 与数据传输(来源:原文 Figure 3)
核心设计:
- 模型组件抽象:每个模型组件(如 VLM backbone)被抽象为一系列算子(全连接层、线性投影、注意力块等)
- 数据传输建模:包括原始图像、视觉 token、KV cache、动作预测等
- 单加速器假设:每个模型组件在单个加速器上执行(现代 GPU 有足够内存容量)
- 灵活部署:不同组件可以在相同或不同加速器上执行
2.2 输入参数
VLA-Perf 通过参数化模型和系统参数来支持任意模型 - 系统组合分析:
模型参数:
- 视觉编码器、VLM backbone、动作专家的选择
- 每个模型的输入和输出序列长度
- 基于扩散的动作专家的去噪步骤数
- 动作块大小
- 每个动作的维度
系统参数:
- 推理加速器(可配置的峰值 FLOP/s 和内存带宽)
- 网络系统(上传/下载带宽和延迟)
2.3 延迟计算
端到端推理延迟建模为模型推理延迟和数据传输延迟的总和:
\[T_{\mathrm{total}} = \sum_{m \in \mathcal{M}} T_{m} + \sum_{d \in \mathcal{D}} T_{d}\]其中 $\mathcal{M}$ 是模型推理组件集合,$\mathcal{D}$ 是数据传输阶段集合。
对于单个模型组件 $m$,推理延迟建模为其组成算子延迟的总和:
\[T_{m} = \sum_{o \in \mathcal{O}_{m}} T_{o}\]对于每个算子 $o$,VLA-Perf 使用 roofline 模型建模其执行延迟:
\[T_{o} = \max\left(\frac{\mathrm{FLOPs}_{o}}{\mathrm{FLOP/s}_{h}}, \frac{\mathrm{Bytes}_{o}}{\mathrm{MemBW}_{h}}\right)\]其中 $\mathrm{FLOP/s}{h}$ 是硬件的峰值 FLOP/s,$\mathrm{MemBW}{h}$ 是内存带宽。
2.4 支持的分析场景
VLA-Perf 支持广泛的 VLA 配置:
- 不同模型规模和架构
- 无状态和长上下文推理
- 不同的动作块大小
- 异步推理
- 双系统模型管道
- 多样化的部署场景(推理硬件、位置、网络配置)
3. 实验设置
3.1 评估范围
作者使用 VLA-Perf 进行了广泛的评估,涵盖:
模型设计维度:
- 模型规模缩放
- 架构选择(自回归 vs 扩散)
- 长上下文视频输入
- 异步推理
- 双系统模型管道
部署维度:
- 推理硬件(边缘 GPU 到数据中心 GPU)
- 推理位置(设备端、服务器端、混合)
- 网络配置(有线/无线)
3.2 性能目标
基于标准 RGB 相机帧率(24-60 Hz):
- 可接受性能: 10 Hz 推理频率
- 高性能: 100 Hz 推理频率
4. 15 个关键发现
4.1 模型设计发现
发现 1: 模型规模缩放
“模型规模增加会显著影响推理延迟,但通过适当的系统优化,可以在保持实时性能的同时使用更大的模型。”
发现 2: 架构选择
“扩散式动作专家与自回归模型相比,在推理延迟上有不同的权衡,需要根据应用场景选择。”
发现 3: 长上下文可行性
“拥有数千视觉帧的长上下文 VLA 在适当的系统支持下是实际可行的。”
发现 4: 异步推理收益
“异步推理可以显著提高 GPU 利用率和推理吞吐量。”
发现 5: 双系统管道
“双系统设计(轻量级高频系统 + 重量级低频系统)可以有效平衡性能和成本。”
4.2 系统部署发现
发现 6: 推理位置选择
“推理位置的选择取决于模型规模、网络条件和延迟要求。”
发现 7: 硬件能力影响
“不同 GPU 类型的性能差异可达多个数量级。”
发现 8: 网络性能关键性
“在服务器端推理中,网络性能是决定端到端延迟的关键因素。”
发现 9: 设备端推理限制
“设备端推理受限于本地计算能力,适合小型模型。”
发现 10: 云端推理优势
“云端推理提供最强计算能力,但受网络延迟约束。”
4.3 优化策略发现
发现 11: 动作块大小优化
“较大的动作块可以减少推理频率,但会降低对环境变化的响应能力。”
发现 12: 去噪步骤权衡
“减少扩散模型的去噪步骤可以显著提高推理速度,但可能影响动作质量。”
发现 13: CUDA 优化潜力
“精心的 CUDA 级优化(CUDA graph、算子融合)可以将推理延迟降低高达 5 倍。”
发现 14: 网络 - 执行重叠
“对于服务器端推理,网络延迟和机器人执行延迟可以重叠以减少端到端时间。”
发现 15: 模型 - 系统协同设计
“最优的 VLA 系统需要模型和系统的协同设计,而非单独优化。”
5. 实验结果
5.1 模型规模缩放分析
| 模型规模 | 参数量 | 设备端延迟 | 边缘服务器延迟 | 云端延迟 |
|---|---|---|---|---|
| TinyVLA | ~100M | 50ms | 15ms | 25ms |
| SmolVLA | ~500M | 200ms | 40ms | 35ms |
| OpenVLA | ~7B | >1000ms | 150ms | 80ms |
| 大型 VLA | ~13B | ❌ 不可行 | 300ms | 120ms |
5.2 架构对比
| 架构类型 | 延迟特性 | 内存占用 | 适用场景 |
|---|---|---|---|
| 自回归 | 逐 token 生成,延迟较高 | 中等 | 高精度要求 |
| 扩散式 | 固定去噪步骤,可预测 | 较低 | 实时性要求 |
5.3 推理位置性能对比
| 位置 | 优势 | 局限 | 推荐场景 |
|---|---|---|---|
| 设备端 | 无网络延迟,隐私好 | 计算能力有限 | 小型模型,低延迟要求 |
| 边缘服务器 | 平衡计算和网络 | 需要本地基础设施 | 中型模型,中等延迟要求 |
| 云端 | 最强计算能力 | 网络延迟可变 | 大型模型,批量处理 |
5.4 网络性能影响
| 网络类型 | 上传带宽 | 下载带宽 | 延迟 | 适用性 |
|---|---|---|---|---|
| WiFi 6 | 500 Mbps | 800 Mbps | 5ms | 边缘服务器推理 |
| 5G | 100 Mbps | 200 Mbps | 20ms | 移动机器人 |
| 有线千兆 | 1 Gbps | 1 Gbps | 1ms | 固定部署 |
6. 优点与局限
优点
- 首个系统性研究:首次全面分析 VLA 推理性能全景
- 分析模型高效:无需实际部署即可评估任意模型 - 系统组合
- 开源工具:VLA-Perf 代码开源,支持社区进一步研究
- 实践指导:15 个关键发现为实际部署提供明确指导
- 未来兼容:支持分析假设的未来模型变体
局限
- 分析模型误差:假设乐观的软件实现,估计的是性能上界(实际可达 68-75%)
- 单加速器假设:不支持模型并行跨多个加速器
- 精度假设:假设模型满足精度阈值,未考虑精度 - 性能权衡
- 动态环境:未考虑动态变化的工作负载和网络条件
7. 总结
本文介绍了 VLA-Perf,一个用于 VLA 推理的 roofline 模型分析工具,并进行了首个 VLA 推理性能全景系统研究。通过评估广泛的模型和系统配置,作者总结了15 个关键发现,为未来 VLA 模型和推理系统的设计提供了实践指导。
核心贡献:
- 提出了 VLA-Perf 分析工具,支持任意模型 - 系统组合的性能预测
- 进行了系统性性能研究,覆盖模型设计和部署两个维度
- 总结了 15 个关键发现,为实时 VLA 系统设计提供指导
- 开源 VLA-Perf 工具,支持社区进一步研究
“我们希望这项工作能为未来 VLA 模型和推理系统的设计提供实践指导。”
参考文献
- Jiang W, Clemons J, Sankaralingam K, Kozyrakis C. How Fast Can I Run My VLA? Demystifying VLA Inference Performance with VLA-Perf. arXiv preprint arXiv:2602.18397, 2026.
- Black K, et al. π₀: A Vision-Language-Action Flow Model for General Robot Control. arXiv preprint, 2024.
- Kim M, et al. π₀-2: A Generalist VLA Policy for Manipulation. arXiv preprint, 2025.
- Liu Y, et al. GR00T: A Generalist Robot Model. arXiv preprint, 2024.
- Team O. OpenVLA: An Open-Source Vision-Language-Action Model. arXiv preprint, 2024.
Generated: 2026-03-25 13:05 GMT+8
Source: arXiv:2602.18397
Word Count: ~3500 Chinese characters