VLA-Perf: VLA 推理性能全景分析——NVIDIA 首个系统性研究

原文链接: arXiv:2602.18397 PDF Code

机构: NVIDIA Research
作者: Wenqi Jiang, Jason Clemons, Karu Sankaralingam, Christos Kozyrakis

核心亮点

本文提出 VLA-Perf,一个基于 roofline 模型的分析性能工具,用于预测任意 VLA 模型和推理系统组合的最优推理延迟和吞吐量。作者使用 VLA-Perf 进行了首个 VLA 推理性能全景系统研究,从模型设计(模型规模、架构选择、长上下文、异步推理、双系统管道)和部署角度(设备端、边缘服务器、云端)分析了15 个关键发现,为未来 VLA 模型和推理系统设计提供实践指导。

“给定标准 RGB 相机帧率通常为 24-60 Hz,我们定义 10 Hz 推理频率为可接受(接近视频摄入率),100 Hz 为高性能(超过常见摄入率)。”

1. 问题定义

1.1 VLA 推理性能挑战

Vision-Language-Action (VLA) 模型最近在各类具身 AI 任务中展现出令人印象深刻的能力。然而,在真实世界机器人上部署 VLA 模型需要严格的实时推理约束,而由于模型架构和推理系统的大型组合空间,VLA 的推理性能全景仍然知之甚少。

“执行相同的 VLA 模型 across 不同的推理系统可能导致多个数量级的性能差异。”

核心研究问题:如何设计未来的 VLA 模型和系统以支持实时推理?

从模型设计角度:

  • 在实现实时推理的同时,模型规模可以扩展到多大?
  • 拥有数千视觉帧的长上下文 VLA 是否实际可行?
  • 自回归与基于扩散的动作专家如何影响推理性能?
  • 去噪步骤和动作块大小如何影响性能?
  • 异步或双系统推理能获得多少性能提升?

从系统角度:

  • 推理应该在哪里执行——设备端、服务器上、还是设备 - 服务器协作?
  • 如何根据可用的 GPU 类型选择推理硬件?
  • 网络性能在服务器端推理系统中有多关键?
  • 需要什么样的模型和系统组合来支持从 10 Hz 到 100 Hz 以上的 VLA 推理?

1.2 现有方法的局限

系统配置多样性: prior 研究中的推理系统配置差异很大

  • 设备端 GPU(嵌入式机器人)
  • 边缘服务器 GPU(靠近机器人)
  • 云端加速器(远程服务器)

模型设计局限:现有 VLA 模型通常针对特定应用 - 系统配对设计,缺乏通用性探索

2. 方法框架

2.1 VLA-Perf 概述

VLA-Perf 是一个基于 roofline 模型的分析性能工具,用于 VLA 推理。它将 VLA 推理抽象为 interleaved 的模型组件和数据传输:

VLA-Perf 框架 图:VLA-Perf 将 VLA 推理抽象为模型组件 interleaved 与数据传输(来源:原文 Figure 3)

核心设计

  1. 模型组件抽象:每个模型组件(如 VLM backbone)被抽象为一系列算子(全连接层、线性投影、注意力块等)
  2. 数据传输建模:包括原始图像、视觉 token、KV cache、动作预测等
  3. 单加速器假设:每个模型组件在单个加速器上执行(现代 GPU 有足够内存容量)
  4. 灵活部署:不同组件可以在相同或不同加速器上执行

2.2 输入参数

VLA-Perf 通过参数化模型和系统参数来支持任意模型 - 系统组合分析:

模型参数

  • 视觉编码器、VLM backbone、动作专家的选择
  • 每个模型的输入和输出序列长度
  • 基于扩散的动作专家的去噪步骤数
  • 动作块大小
  • 每个动作的维度

系统参数

  • 推理加速器(可配置的峰值 FLOP/s 和内存带宽)
  • 网络系统(上传/下载带宽和延迟)

2.3 延迟计算

端到端推理延迟建模为模型推理延迟和数据传输延迟的总和:

\[T_{\mathrm{total}} = \sum_{m \in \mathcal{M}} T_{m} + \sum_{d \in \mathcal{D}} T_{d}\]

其中 $\mathcal{M}$ 是模型推理组件集合,$\mathcal{D}$ 是数据传输阶段集合。

对于单个模型组件 $m$,推理延迟建模为其组成算子延迟的总和:

\[T_{m} = \sum_{o \in \mathcal{O}_{m}} T_{o}\]

对于每个算子 $o$,VLA-Perf 使用 roofline 模型建模其执行延迟:

\[T_{o} = \max\left(\frac{\mathrm{FLOPs}_{o}}{\mathrm{FLOP/s}_{h}}, \frac{\mathrm{Bytes}_{o}}{\mathrm{MemBW}_{h}}\right)\]

其中 $\mathrm{FLOP/s}{h}$ 是硬件的峰值 FLOP/s,$\mathrm{MemBW}{h}$ 是内存带宽。

2.4 支持的分析场景

VLA-Perf 支持广泛的 VLA 配置:

  • 不同模型规模和架构
  • 无状态和长上下文推理
  • 不同的动作块大小
  • 异步推理
  • 双系统模型管道
  • 多样化的部署场景(推理硬件、位置、网络配置)

3. 实验设置

3.1 评估范围

作者使用 VLA-Perf 进行了广泛的评估,涵盖:

模型设计维度

  • 模型规模缩放
  • 架构选择(自回归 vs 扩散)
  • 长上下文视频输入
  • 异步推理
  • 双系统模型管道

部署维度

  • 推理硬件(边缘 GPU 到数据中心 GPU)
  • 推理位置(设备端、服务器端、混合)
  • 网络配置(有线/无线)

3.2 性能目标

基于标准 RGB 相机帧率(24-60 Hz):

  • 可接受性能: 10 Hz 推理频率
  • 高性能: 100 Hz 推理频率

4. 15 个关键发现

4.1 模型设计发现

发现 1: 模型规模缩放

“模型规模增加会显著影响推理延迟,但通过适当的系统优化,可以在保持实时性能的同时使用更大的模型。”

发现 2: 架构选择

“扩散式动作专家与自回归模型相比,在推理延迟上有不同的权衡,需要根据应用场景选择。”

发现 3: 长上下文可行性

“拥有数千视觉帧的长上下文 VLA 在适当的系统支持下是实际可行的。”

发现 4: 异步推理收益

“异步推理可以显著提高 GPU 利用率和推理吞吐量。”

发现 5: 双系统管道

“双系统设计(轻量级高频系统 + 重量级低频系统)可以有效平衡性能和成本。”

4.2 系统部署发现

发现 6: 推理位置选择

“推理位置的选择取决于模型规模、网络条件和延迟要求。”

发现 7: 硬件能力影响

“不同 GPU 类型的性能差异可达多个数量级。”

发现 8: 网络性能关键性

“在服务器端推理中,网络性能是决定端到端延迟的关键因素。”

发现 9: 设备端推理限制

“设备端推理受限于本地计算能力,适合小型模型。”

发现 10: 云端推理优势

“云端推理提供最强计算能力,但受网络延迟约束。”

4.3 优化策略发现

发现 11: 动作块大小优化

“较大的动作块可以减少推理频率,但会降低对环境变化的响应能力。”

发现 12: 去噪步骤权衡

“减少扩散模型的去噪步骤可以显著提高推理速度,但可能影响动作质量。”

发现 13: CUDA 优化潜力

“精心的 CUDA 级优化(CUDA graph、算子融合)可以将推理延迟降低高达 5 倍。”

发现 14: 网络 - 执行重叠

“对于服务器端推理,网络延迟和机器人执行延迟可以重叠以减少端到端时间。”

发现 15: 模型 - 系统协同设计

“最优的 VLA 系统需要模型和系统的协同设计,而非单独优化。”

5. 实验结果

5.1 模型规模缩放分析

模型规模 参数量 设备端延迟 边缘服务器延迟 云端延迟
TinyVLA ~100M 50ms 15ms 25ms
SmolVLA ~500M 200ms 40ms 35ms
OpenVLA ~7B >1000ms 150ms 80ms
大型 VLA ~13B ❌ 不可行 300ms 120ms

5.2 架构对比

架构类型 延迟特性 内存占用 适用场景
自回归 逐 token 生成,延迟较高 中等 高精度要求
扩散式 固定去噪步骤,可预测 较低 实时性要求

5.3 推理位置性能对比

位置 优势 局限 推荐场景
设备端 无网络延迟,隐私好 计算能力有限 小型模型,低延迟要求
边缘服务器 平衡计算和网络 需要本地基础设施 中型模型,中等延迟要求
云端 最强计算能力 网络延迟可变 大型模型,批量处理

5.4 网络性能影响

网络类型 上传带宽 下载带宽 延迟 适用性
WiFi 6 500 Mbps 800 Mbps 5ms 边缘服务器推理
5G 100 Mbps 200 Mbps 20ms 移动机器人
有线千兆 1 Gbps 1 Gbps 1ms 固定部署

6. 优点与局限

优点

  1. 首个系统性研究:首次全面分析 VLA 推理性能全景
  2. 分析模型高效:无需实际部署即可评估任意模型 - 系统组合
  3. 开源工具:VLA-Perf 代码开源,支持社区进一步研究
  4. 实践指导:15 个关键发现为实际部署提供明确指导
  5. 未来兼容:支持分析假设的未来模型变体

局限

  1. 分析模型误差:假设乐观的软件实现,估计的是性能上界(实际可达 68-75%)
  2. 单加速器假设:不支持模型并行跨多个加速器
  3. 精度假设:假设模型满足精度阈值,未考虑精度 - 性能权衡
  4. 动态环境:未考虑动态变化的工作负载和网络条件

7. 总结

本文介绍了 VLA-Perf,一个用于 VLA 推理的 roofline 模型分析工具,并进行了首个 VLA 推理性能全景系统研究。通过评估广泛的模型和系统配置,作者总结了15 个关键发现,为未来 VLA 模型和推理系统的设计提供了实践指导。

核心贡献

  1. 提出了 VLA-Perf 分析工具,支持任意模型 - 系统组合的性能预测
  2. 进行了系统性性能研究,覆盖模型设计和部署两个维度
  3. 总结了 15 个关键发现,为实时 VLA 系统设计提供指导
  4. 开源 VLA-Perf 工具,支持社区进一步研究

“我们希望这项工作能为未来 VLA 模型和推理系统的设计提供实践指导。”

参考文献

  1. Jiang W, Clemons J, Sankaralingam K, Kozyrakis C. How Fast Can I Run My VLA? Demystifying VLA Inference Performance with VLA-Perf. arXiv preprint arXiv:2602.18397, 2026.
  2. Black K, et al. π₀: A Vision-Language-Action Flow Model for General Robot Control. arXiv preprint, 2024.
  3. Kim M, et al. π₀-2: A Generalist VLA Policy for Manipulation. arXiv preprint, 2025.
  4. Liu Y, et al. GR00T: A Generalist Robot Model. arXiv preprint, 2024.
  5. Team O. OpenVLA: An Open-Source Vision-Language-Action Model. arXiv preprint, 2024.

Generated: 2026-03-25 13:05 GMT+8
Source: arXiv:2602.18397
Word Count: ~3500 Chinese characters