Build on Priors: 视觉-语言引导的神经符号模仿学习实现数据高效的机器人操作

原文链接: arXiv:2604.03759 PDF

摘要

让机器人从少量演示中学习长程操作任务仍然是机器人领域的核心挑战。现有的神经符号方法通常依赖手工设计的符号抽象、语义标记的轨迹或大规模演示数据集,限制了其可扩展性和实际应用。本文提出了一种可扩展的神经符号框架,仅需 1 到 30 个未标记的技能演示,即可自动构建符号规划域和数据高效的控制策略,无需手动域工程。

该方法将演示分割为技能,利用视觉-语言模型(VLM)对技能进行分类并识别等价的高级状态,从而自动构建状态转移图。该图由 Answer Set Programming(ASP)求解器处理以合成 PDDL 规划域,Oracle 函数利用该域为每个技能策略隔离最小化的、任务相关的、目标相对的观察和动作空间。策略在控制参考级别而非原始执行器信号级别学习,产生更平滑、噪声更小的学习目标。

叉车系统装载托盘 图1:叉车系统从地面装载两个托盘并将其卸载到卡车上。该系统基于先验(感知、用于注释的VLM和控制)构建,仅从10个基础技能演示和1个额外的适应技能轨迹中模仿长程和复杂的任务规划与执行。

1. 问题定义

1.1 核心挑战

教机器人执行复杂的长程任务是机器人学、规划和机器学习交叉领域的基本挑战。模仿学习已成为从演示中获取机器人行为的引人注目的范式,避免了手动奖励工程的需求。然而,大多数模仿学习方法在以下方面存在局限:

  • 短程技能层面操作:难以处理长执行范围内的复合分布偏移
  • 需要大量演示数据集:才能可靠地泛化
  • 缺乏组合泛化能力:难以将技能组合成训练期间未见过的序列

人类通过将连续经验抽象为符号结构(谓词、算子、计划)来自然地解决长程问题,支持灵活推理和重用。

1.2 本文解决方案

本文提出的统一神经符号框架从少量原始演示(每个技能仅需 1-30 个)中学习符号规划域和低级控制策略,无需假设任何预定义的符号词汇表。

关键洞察:视觉-语言模型(VLM)可以替代完整的人工注释需求——它通过比较视觉场景快照来分类演示技能并识别等价的高级状态,从而实现状态转移图的自动构建。

2. 方法框架

训练流程 图2:训练流程。两个共享输入列馈送三个处理通道,每个通道产生学习系统 Φ 的一个组件。

2.1 VLM 驱动的图构建

该框架用 VLM 驱动的流程替代专家符号注释,仅需人工提供少量技能名称词汇表 Λ = {l₁, …, lₖ}。

状态表示:每个节点对应一个视觉场景快照。两个快照如果被 VLM 判断为语义等价,则合并为同一节点。

技能分类:从演示段中提取均匀分布的帧,向 VLM 发出分类提示:

“您是分析简短操作序列的专家叉车操作员…识别在整个序列中执行的单一主导操作技能。”

2.2 ASP 符号抽象

从原始演示轨迹中提取节点转移,形成图 G = ⟨V, E, L⟩。通过双模拟计算最小化图 Ḡ,然后使用 ASP 求解器推断符号域 σ = ⟨E, F, S, O⟩。

2.3 Oracle 引导的观察过滤

Oracle 函数 ϕ 是实现样本效率的关键机制,它将完整场景观察过滤为仅与当前执行算子相关的信息:

\[\tilde{s}_t^{o_i} = \{ p_e^{\text{rel}} = p_{\rho^{-1}(e)} - p_{\text{ee}} \mid e \in \mathcal{E}_{o_i} \}\]

其中对象位置相对于末端执行器表示,使观察空间具有平移不变性。

2.4 控制级模仿学习

关键设计选择:在控制参考级别而非原始执行器信号级别进行模仿学习。策略输出笛卡尔空间中的期望末端执行器位移 Δp ∈ ℝ⁶,由低级控制器(如笛卡尔阻抗或速度控制器)以更高频率跟踪。

扩散策略训练:每个子策略通过在其分配的演示段上最小化标准扩散去噪目标来训练:

\[\mathcal{L}_{\pi} = \mathbb{E}_{(\tilde{s}_t, a_t), k, \epsilon} \left[ \left\| \epsilon - \epsilon_{\theta} \left( \sqrt{\bar{\alpha}_k} \, a_t + \sqrt{1 - \bar{\alpha}_k} \, \epsilon, \, \tilde{s}_t^{o_i}, \, k \right) \right\|^2 \right]\]

Transformer 终止预测器:终止预测需要在时间上下文窗口上推理,而非单一观察快照。使用 Transformer 序列分类器在滑动历史窗口上操作。

2.5 真实世界数据增强

利用学习到的控制系统结构,将单个记录的演示投影到场景中的其他对象上。

对于操作技能,给定源对象和目标对象的姿态,轨迹首先通过刚体重定位到目标对象帧,然后使用归一化弧长参数平滑分布残差。

增强的轨迹有两个互补作用:

  1. 为状态转移图 G 贡献额外的边实例
  2. 为扩散策略提供额外的训练对

3. 实验设置

3.1 评估系统

自主户外叉车(ADAPT):用于非结构化环境中托盘搬运的自主户外叉车,配备液压驱动和双节铰接底盘。

评估领域 图5:主要评估领域:用于管理户外场景中多个托盘的自动化叉车。托盘可以存放在地面或卡车平台上。

Kinova Gen3 机械臂:在标准操作基准上验证跨平台通用性,包括方块堆叠和厨房操作任务。

验证领域 图6:验证领域:在 Kinova 机械臂上验证方法,包括厨房任务(整理厨房桌上的物体)和堆叠任务(按大小顺序堆叠立方体)。

3.2 评估设置

  1. 叉车托盘操作的统计评估:在随机化初始姿态下评估完整装载-导航-卸载周期的成功率
  2. 最少演示的长程任务执行:评估系统从最少演示中组合学习到的算子的能力
  3. 单演示适应新放置位置:展示系统通过单个新演示扩展部署系统的能力
  4. 跨平台 Kinova Gen3 实验:验证相同流程在不同机器人和任务域上的通用性

4. 实验结果

4.1 VLM 图构建准确性

使用 Gemini 3 Flash 进行 VLM 图构建的准确性:

任务 准确率
节点匹配(状态等价,布尔值) 85%
边注释(技能标签,单词) 98%

边注释的高准确率(98%)确认了 VLM 在技能分类方面的可靠性,而节点匹配的较低准确率(85%)表明在某些情况下仍需要人工监督。

4.2 叉车托盘管理成功率

成功率曲线 图7:神经符号方法在真实世界叉车托盘管理中的成功率随演示次数变化的函数。任务包括在相对于托盘的随机位置下装载托盘、导航到目标区域并卸载。虚线表示经典控制基线,在两种标准下均达到 98%。

演示次数 强成功率 软成功率
30 90% ~96%
10 86% ~92%
5 78% ~88%

神经符号框架在 30 次演示下达到 90% 的强成功率,接近手工设计的经典控制器的 98% 上限,同时需要零手动域工程。

关键发现

  • 软成功率始终保持较高,强成功率与软成功率之间的差距(约 6-12 个百分点)主要归因于对齐阶段的轻微叉尖接触
  • 经典控制提供了工程上限而非公平基线——它依赖精确手工设计的对齐控制器,需要数月的专家工程
  • 该框架将控制层视为先验:低级控制器处理命令跟踪和物理稳定,让学习组件在更高抽象级别操作

重置区域性能分布 图9:叉车托盘装载任务在叉车重置区域上的性能分布。每个箭头表示相对于托盘位置的初始姿态 (x_init, y_init, yaw_init)。蓝色箭头表示成功,红色箭头表示失败。

4.3 长程组合和快速适应

长程双托盘、双区域实验表明,组合规划产生的开销可以忽略不计:MetricFF 规划器在不到一秒内产生正确的八算子序列。

单演示卡车车厢适应实验特别具有指导意义:仅需单个新演示即可扩展现有技能策略,这突显了架构的模块化优势。

4.4 跨平台机械臂实验

Kinova Gen3 基准测试确认了流程的领域独立性。相同框架在方块堆叠和厨房环境中产生有效、可执行的 PDDL 域,仅需更换感知栈。

关键成就

  • 厨房和堆叠任务均仅使用单个演示训练
  • 利用该单个演示通过现有控制在真实世界中投影和增强数据
  • 自动抽象规划域(VLM 注释、图构建、ASP 求解器)解决长程问题
  • 跨新任务排序泛化(任务间泛化)无需额外演示

5. 技术贡献

5.1 核心创新

  1. VLM 驱动的图构建流程:自动注释、分类技能并从视觉场景快照识别等价高级状态,无需预定义谓词、符号或手动工程

  2. ASP 符号抽象方法:从状态转移图合成 PDDL 规划域,支持丰富的关系和时间算子结构

  3. Oracle 函数:利用学习到的符号域为每个技能隔离最小观察和动作空间,包括几何感知的相对姿态计算

  4. 控制级模仿学习:真实世界数据增强,使单个演示能够投影到多个场景对象上,有效增加数据集大小

  5. 跨平台验证:在真实工业叉车和 Kinova Gen3 机械臂上验证,展示数据高效、可泛化和可解释的长程任务执行

5.2 与 VLA 模型的关系

视觉-语言-动作模型(VLA)通过在大规模机器人轨迹数据上微调大型预训练视觉-语言模型来获得策略。然而,VLA 存在以下根本限制:

方面 VLA 本文方法
数据需求 数十万到数百万演示 1-30 次技能演示
可解释性 黑盒函数逼近器 显式 PDDL 计划
重新规划 支持
组合泛化 训练分布内插值 符号规划支持组合泛化

本文框架使用 VLM 进行技能注释和状态等价判断,使用 OWLv2 进行开放词汇对象检测,与 VLA 是互补而非竞争关系。

6. 局限性与未来工作

6.1 当前局限

  1. 故障恢复:当前框架在任务级别开环运行,符号计划顺序执行而无需在故障时重新规划
  2. 规模扩展:虽然框架对适度技能库( O ≤ 10)扩展良好,但 ASP 求解器的搜索复杂度随图边数增加
  3. 技能分割:依赖应用于运动信号的自动变点检测器,可能无法分割具有平滑、重叠速度分布的技能

6.2 未来方向

  1. 通过可靠的符号状态估计器关闭感知到规划的循环,实现真正的故障恢复和重新规划
  2. 将 Oracle 和数据增强机制扩展到移动操作平台
  3. 将神经符号规划层与大规模 VLA 风格控制器集成,使用符号规划器进行任务级排序,VLA 进行丰富的视觉运动执行

7. 结论

本文提出的 “Build on Priors” 框架利用基础模型、经典控制和感知作为结构先验,是一种可扩展的神经符号框架,用于数据高效的机器人操作。该框架从少量未标记演示中学习符号规划域和神经技能策略集,无需手动域工程或符号监督。

在真实自主工业叉车和 Kinova Gen3 机械臂上的实证验证表明,该模型在不同机器人和任务域上产生可解释、可泛化和数据高效的行为。该框架既不是纯模仿学习方法,也不是纯符号规划系统,而是一个紧密集成的符号-子符号层次结构,其中每一层都增强其他层。

核心洞察:将控制学习建立在符号推理基础上,将符号推理建立在大型预训练模型驱动的感知抽象基础上,为真实世界环境中可扩展、无专家、可解释的机器人学习提供了一条实用路径。


参考文献

  1. Lorang, P., Huemer, J., Duggan, T., Goebel, K., Zips, P., & Scheutz, M. (2026). Build on Priors: Vision–Language–Guided Neuro-Symbolic Imitation Learning for Data-Efficient Real-World Robot Manipulation. arXiv:2604.03759.

  2. Chi, C., Feng, S., Du, Y., Xu, Z., Cousineau, E., Burchfiel, B., & Song, S. (2023). Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. RSS.

  3. Bonet, B., & Geffner, H. (2020). Learning First-Order Symbolic Representations for Planning from the Structure of the State Space. ECAI.

  4. Brohan, A., et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. CoRL.

  5. Konidaris, G., Kaelbling, L. P., & Lozano-Perez, T. (2018). From Skills to Symbols: Learning Symbolic Representations for Abstract High-Level Planning. JAIR.