Large Video Planner: 用视频生成实现通用机器人控制

原文链接: arXiv:2512.15840 PDF

核心亮点

这是首个在基础模型规模上训练的视频模型用于生成式机器人规划。Large Video Planner (LVP) 从单张图像和任务指令生成零样本视频计划,然后提取可执行的机器人动作,在真实机器人上成功执行 diverse 任务,包括撕胶带、按电梯按钮、擦桌子等。

摘要

通用机器人需要能够在不同任务和环境之间泛化的决策模型。最近的工作通过扩展多模态大语言模型(MLLM)添加动作输出来构建机器人基础模型——创建视觉 - 语言 - 动作(VLA)系统。然而,与支撑 MLLM 的网络规模文本和图像数据相比,机器人动作数据要稀缺得多。本文探索了一种替代范式:使用大规模视频预训练作为构建机器人基础模型的主要模态。视频捕捉物理世界中状态和动作的时空序列,与机器人行为自然对齐。作者策划了一个互联网规模的人类活动和任务演示视频数据集,并首次在基础模型规模上训练了一个开放的视频模型用于生成式机器人规划。

1. 问题定义

通用机器人——设计用于在不同任务和 novel 环境中可靠运行的系统——将极大地受益于本身极其通用的规划算法。这样的规划算法应该能够:

  • 理解未见过的任务
  • 流畅地适应新场景
  • 输出物理上连贯的行为

“开发这些强大的泛化能力仍然是具身智能今天的一个核心、未解决的挑战。”

1.1 现有方法的局限

VLA 模型的不对称迁移问题:现有的 VLA 模型依赖于不对称形式的迁移,其中 MLLM 中的预训练知识在少量机器人数据上进行微调。这种结构导致在未见过的情况下给出新机器人任务时泛化能力差。

数据稀缺:机器人动作数据远少于支撑 MLLM 的网络规模文本和图像数据。这使得构建具有与 MLLM 相同能力水平的 VLA 模型变得困难。

1.2 视频范式的优势

与静态图像 - 文本对相比,视频自然地编码状态 - 动作计划,视觉化地描绘了世界如何随着智能体与它的交互而演变。

“视频生成模型以文本指令和初始观察帧为条件,可以预测合理的未来帧——有效地为不同任务生成视觉动作计划。”

关键优势

  • 捕捉空间和时间的连续性
  • 提供比文本 token 更丰富的连续动作表示
  • 视频数据在网上丰富,涵盖人类活动、教学教程和任务演示
  • 每个视频隐式包含动作信息

2. 方法

2.1 两阶段设计

LVP 采用两阶段设计:大型视频规划器 + 动作提取

阶段 1:视频规划 机器人使用视频基础模型想象理性人类如何执行任务——生成一个视频,其中手伸向把手、转动它并推开门。

阶段 2:动作提取 应用动作提取算法将视觉计划转换为可执行的控制信号,无论是用于灵巧的五指手还是平行夹爪。

2.2 LVP 模型架构

潜在视频扩散

LVP 遵循潜在扩散框架,使用时间因果 3D VAE将视频剪辑从像素空间压缩到紧凑的低维潜在表示:

  • 输入形状:[1 + T, 3, H, W]
  • 潜在形状:[1 + ⌈T/4⌉, 16, ⌈H/4⌉, ⌈W/4⌉
  • 每个 8×8×4 时空 patch 编码为 16 通道嵌入

第一帧重复 4 次后再压缩,允许与单帧图像数据共同训练。

Diffusion Forcing Transformer

传统视频扩散模型对所有 token 添加统一噪声级别,而Diffusion Forcing在不同帧使用不同噪声级别训练,具有灵活性和 rollout 稳定性的额外优势。

关键创新

  • 随机采样历史长度 {0, 1, 2, ..., 6} 潜在帧
  • 将视频分为历史段和未来段
  • 对每段应用独立噪声级别
  • 历史段以 50% 概率设置为零噪声

这使得模型能够灵活地在采样时以干净的第一帧或多个历史帧为条件。

历史引导增强时间相干性

LVP 采用历史引导(History Guidance),一种 CFG 变体,对任意数量的上下文帧执行引导:

∇ log p(xk | xhist, ctext, k)

其中 xk 是在噪声级别 k 扩散的未来段,ctext 是任务指令。

“历史引导显著增强了上下文相干性,通过允许 Diffusion Forcing 的特殊采样技术。”

2.3 LVP-1M 数据集

作者策划并发布了大规模开放数据集,用于具身决策:

数据来源 类型 权重
AgiBot-World 机器人遥操作 0.375
DROID 机器人遥操作 0.75
Ego4D 人类活动 1.5
Pandas (filtered) 人类活动 0.5
SomethingSomething 人类活动 0.5
Bridge 机器人遥操作 1.0
Epic-Kitchens 人类活动 2.0
Language Table 机器人遥操作 0.05

数据处理流程

  1. 激进过滤:移除低质量剪辑(低分辨率、太短、照明差)、快速相机运动
  2. 以动作为中心的标注:使用 Gemini 为每个剪辑生成 2-5 个多样化标注
  3. 时间频率对齐:对机器人剪辑进行子采样以匹配人类速度

最终数据集包含140 万剪辑,具有多样化的以动作为中心的文本标注。

2.4 动作提取与重定向

从生成视频提取动作涉及以下步骤:

  1. MegaSaM 深度估计:恢复每帧深度和外参,解决单眼尺度模糊
  2. HaMeR 手部网格估计:预测 MANO 参数、手部网格顶点和相机参数
  3. 4D 对齐模块:对齐 HaMeR 和 MegaSaM 输出,确保时空一致性
  4. 相机到机器人对齐:将手腕轨迹从相机坐标系转换到机器人基座坐标系
  5. 时间平滑:应用样条平滑生成最终轨迹

对于平行夹爪,使用GraspNet预测与观察场景几何一致的候选抓取姿势。

3. 实验结果

3.1 实验设置

机器人平台

任务集 机器人 控制频率
Task Set 1 Franka Panda + 平行夹爪 15 Hz
Task Set 2 Unitree G1 + DexHand 5 Hz

评估任务(16 个任务):

  • 基础操作:按按钮、抓取物体、打开抽屉
  • OOD 泛化:未见过的物体、未见过的场景
  • 灵巧操作:打开盒子、开门、擦桌子、按电梯按钮
  • 复杂任务:舀咖啡豆、扫网球入桶、撕透明胶带

3.2 定性结果

生成的视频计划展示了强大的任务理解和物理一致性:

成功执行的任务示例

  • 擦除黑板上的紫色三角形
  • 向上翻转灯开关
  • 将吸管插入杯子
  • 打开灰色电脑盖子
  • 拿起蓝色笔记本
  • 按红色按钮
  • 将叉子放入装饰有狗图案的红色杯子
  • 打开黑色柜子
  • 打开牛奶冰箱

3.3 与基线比较

相比基线模型,LVP 表现出:

  • 更强的接触动力学理解:准确模拟手 - 物体交互
  • 更好的目标推理:理解任务的最终状态
  • 端到端可执行性:在真实机器人上成功执行

3.4 零样本泛化

独立评估协议:独立测试者自由选择场景和任务——鼓励创造性和挑战性——产生多样化的评估条件:

  • 户外场景(如人行横道)
  • 灵巧任务(如撕胶带)
  • 未见过的物体和场景配置

“这些结果显示了强大的指令跟随、强大的泛化和现实世界的可行性。”

4. 关键技术创新

4.1 Diffusion Forcing 的统一训练

LVP 使用修改的 Diffusion Forcing 训练策略联合训练 I2V(图像到视频)和 V2V(视频到视频):

训练配置 历史帧噪声 未来帧噪声 对应模式
长上下文 0 变化 V2V
干净第一帧 0 变化 I2V
噪声上下文 中间值 变化 鲁棒性训练
完全掩码 最大 变化 T2V

这种方法消除了对可变长度上下文 token 的额外交叉注意力,同时与现有 DiT 模型权重兼容,无需架构更改。

4.2 4D 对齐模块

相比单独使用 HaMeR,4D 对齐模块提供:

  • 更准确的深度估计:MegaSaM 解决单眼尺度模糊
  • 时间一致性:手部轨迹在时间上平滑
  • 度量准确性:手腕轨迹可用于真实机器人执行

4.3 数据重加权

八个数据源大小差异很大。使用加权采样平衡贡献:

权重:[0.375, 0.75, 1.5, 0.5, 0.5, 1.0, 2.0, 0.05]
对应:[AgiBot, DROID, Ego4D, Pandas, Something, Bridge, Epic, Language]

5. 与 VLA 方法的对比

特性 VLA 方法 LVP(视频范式)
主要模态 语言 + 图像 视频
数据来源 机器人动作数据(稀缺) 互联网视频(丰富)
迁移形式 不对称(MLLM 微调) 直接(视频本身包含动作)
时间建模 离散 token 序列 连续时空序列
泛化能力 有限(依赖机器人数据) 强大(互联网规模预训练)
物理一致性 需要额外约束 自然编码在视频中

6. 局限性与未来方向

6.1 当前局限

模型层面的”挂起”

  • 基础模型需要额外帮助来像架构师一样推理
  • 对 Verilog(事件驱动语言)的推理有时像顺序代码
  • 输入规格必须以极其严格和可验证的方式编写

动作提取挑战

  • HaMeR 深度估计缺乏度量尺度准确性
  • 手部姿势估计没有时间一致性
  • 需要 MegaSaM 进行全局优化

6.2 未来改进方向

模型扩展

  • 扩展到更大代码库(数百万行 Verilog)没有特别问题
  • 关键挑战是需要经验丰富的架构师指导以获得良好结果

新设计流程

  • 团队将能够同时探索许多不同的设计和产品想法
  • 设计周期从 18-36 个月缩短到 3-6 个月
  • 高级工程师从”工具操作”转向架构决策

7. 总结

Large Video Planner 代表了机器人基础模型的新范式:

核心贡献

  1. LVP 模型:首个在基础模型规模上训练的视频模型用于机器人操作
  2. LVP-1M 数据集:140 万剪辑的互联网规模视频数据集,精心策划用于具身决策
  3. 严格评估:独立测试协议和真实机器人实验系统评估泛化能力

关键优势

  • 零样本视频计划生成
  • 强大的任务级泛化
  • 真实机器人上的端到端执行
  • 比 VLA 基线更好的接触动力学和目标推理

技术亮点

  • Diffusion Forcing 统一 I2V/V2V 训练
  • 历史引导增强时间相干性
  • 4D 对齐模块实现准确动作提取
  • 数据重加权平衡多源贡献

未来影响

  • 视频作为机器人学习的主要模态
  • 互联网规模视频数据替代稀缺机器人数据
  • 零样本规划在多样化场景中可行

这项工作展示了视频生成模型在机器人规划中的巨大潜力,为构建真正通用的机器人基础模型开辟了新路径。

参考文献

  1. Boyuan Chen et al. Large Video Planner Enables Generalizable Robot Control. arXiv:2512.15840, 2025.
  2. Kiwhan Song et al. History-Guided Video Diffusion. ICLR, 2025.
  3. Team Wan. Wan: Open and Advanced Large-Scale Video Generative Models. arXiv:2503.20314, 2025.
  4. EEMBC. CoreMark EEMBC Benchmark. https://www.eembc.org/coremark/
  5. RISC-V International. Spike, a RISC-V ISA Simulator. https://github.com/riscv-software-src/riscv-isa-sim