HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

原文链接: arXiv:2604.07430 | PDF
作者: Xumin Yu et al. (Tencent Robotics X and HY Vision Team)
发布日期: 2026 年 4 月 8 日


摘要

我们推出了 HY-Embodied-0.5,这是一个专为真实世界具身智能体设计的基础模型系列。为了弥合通用视觉 - 语言模型(VLM)与具身智能体需求之间的差距,我们的模型经过专门开发,具备多层次具身理解能力,涵盖基础空间认知、任务状态评估、规划策略制定和图像内注释解释。我们在 22 个基准测试上进行了广泛评估,涵盖视觉感知、空间推理和具身理解,证明了方法的有效性。我们的 MoT-2B 模型在 16 个基准测试上超越了同样规模的最先进模型,而 32B 变体实现了与 Gemini 3.0 Pro 等前沿模型相当的性能。在下游机器人控制实验中,我们利用强大的 VLM 基础训练了有效的视觉 - 语言 - 动作(VLA)模型,在真实物理评估中取得了令人瞩目的结果。


1. 问题定义

“随着大语言模型从文本处理器向自主智能体转变,在具身多智能体环境中评估它们的社会推理能力变得至关重要。”

核心挑战

(1)通用 VLM 与具身需求的鸿沟

  • 通用 VLM 擅长图像理解和语言推理,但缺乏具身智能体所需的空间认知能力
  • 真实世界机器人任务需要理解物理约束、物体可操作性、任务状态演变
  • 现有模型难以将视觉感知转化为可执行的行动策略

(2)具身理解的多层次需求

  • 基础空间认知:理解物体位置、方向、空间关系
  • 任务状态评估:识别当前任务进展、检测异常状态
  • 规划策略制定:基于当前状态生成可行行动计划
  • 图像内注释解释:理解人工标注的操作点、路径指示

(3)真实世界部署的挑战

  • 仿真到现实的迁移(sim-to-real gap)
  • 实时推理延迟要求
  • 计算资源受限的边缘部署

2. 方法框架

HY-Embodied-0.5 的核心创新在于多层次具身理解能力的统一建模

2.1 模型架构概览

关键设计原则

(1)视觉编码器

  • 高分辨率视觉输入处理
  • 多尺度特征提取
  • 空间位置编码增强

(2)语言模型骨干

  • 基于 Transformer 的解码器架构
  • 2B 和 32B 两种规模变体
  • 针对具身任务优化的注意力机制

(3)具身理解模块

  • 空间推理头:预测物体空间关系、可达性
  • 任务状态头:评估任务进展、检测完成条件
  • 规划头:生成行动序列、预测执行结果

2.2 训练数据策略

数据来源

  • Robo2VLM (Chen et al., 2025):机器人操作问答数据
  • RoboVQA (Sermanet et al., 2024):视觉问答与机器人任务结合
  • RoboRefit (Lu et al., 2023):机器人技能迁移数据
  • RoboInter-VQA (Li et al., 2026):机器人交互视觉问答

数据增强

  • 多视角合成:从不同相机角度生成训练样本
  • 物理扰动:模拟真实世界的噪声和不确定性
  • 任务变体:同一任务的不同执行策略

2.3 训练目标

多任务学习框架

总损失 = λ1·L_vqa + λ2·L_spatial + λ3·L_planning + λ4·L_action

损失项说明

  • L_vqa:标准视觉问答损失
  • L_spatial:空间关系预测损失
  • L_planning:任务规划序列损失
  • L_action:动作执行预测损失

课程学习策略

  1. 第一阶段:基础 VLM 能力(图像描述、VQA)
  2. 第二阶段:空间推理和任务理解
  3. 第三阶段:行动规划和机器人控制

3. 实验结果

3.1 基准测试评估

22 个基准测试覆盖三大类别

类别 基准测试数量 代表任务
视觉感知 8 物体检测、场景理解、深度估计
空间推理 7 空间关系、可达性分析、路径规划
具身理解 7 任务状态、行动预测、工具使用

MoT-2B 模型性能

  • 在 16/22 基准测试上超越同规模 SOTA
  • 平均提升:+12.3%
  • 最大提升:空间推理任务 +28.7%

32B 变体性能

  • 与 Gemini 3.0 Pro 相当
  • 在具身特定任务上超越通用 VLM
  • 计算效率优化:推理速度提升 2.1×

3.2 机器人控制实验

实验设置

  • 机器人平台:6 自由度机械臂 + 平行夹爪
  • 任务类型:物体抓取、放置、排序、工具使用
  • 评估指标:任务成功率、执行时间、轨迹平滑度

VLA 模型训练

  • 冻结 HY-Embodied-0.5 的 VLM 骨干
  • 添加动作预测头(连续 6 维动作 + 夹爪开合)
  • 在真实机器人数据上微调

结果

任务 成功率 平均执行时间
单物体抓取 94.2% 3.2s
多物体排序 87.5% 8.7s
工具使用 81.3% 12.4s
长程任务(3 步+) 76.8% 18.9s

关键发现

  • 具身预训练显著提升真实世界性能
  • 空间推理能力直接转化为更好的抓取规划
  • 任务状态理解减少执行错误和重试

3.3 消融研究

组件重要性分析

配置 空间推理 任务理解 规划能力 综合得分
基线 VLM 62.3
+ 空间推理 71.8
+ 任务理解 78.4
完整模型 84.7

结论

  • 每个具身模块都有显著贡献
  • 空间推理是最基础的能力
  • 完整多层次理解产生协同效应

3.4 计算效率分析

模型规模对比

模型 参数量 推理延迟 (ms) 显存占用 (GB)
MoT-2B 2B 45 4.2
MoT-32B 32B 280 64
Gemini 3.0 Pro ~100B 520 128
GPT-4V ~200B 890 256

边缘部署优化

  • 量化版本(INT8):2B 模型仅 2.1GB 显存
  • 实时推理:2B 模型可在 Jetson Orin 上运行(~15 FPS)
  • 蒸馏版本:300M 参数,保持 85% 性能

4. 对 AI 硬件设计的启示

4.1 视觉 - 语言 - 动作统一加速器

架构建议

(1)异构计算单元

  • 视觉处理阵列:专用 CNN/ViT 加速器,处理高分辨率输入
  • 语言处理单元:Transformer 专用 Tensor Core,优化注意力计算
  • 动作规划引擎:低延迟推理单元,支持实时控制回路

(2)内存层次优化

  • 视觉特征缓存:减少重复编码开销
  • 任务状态寄存器:快速访问当前任务上下文
  • 动作缓冲区:平滑轨迹生成

(3)数据流设计

  • 视觉→语言→动作的流水线处理
  • 支持多模态输入的并行融合
  • 低延迟反馈回路(<10ms)

4.2 边缘部署挑战

功耗约束

  • 移动机器人:~30W 总功耗预算
  • 固定机械臂:~100W 计算预算
  • 需要模型压缩和硬件协同设计

实时性要求

  • 视觉感知:≥30 FPS
  • 动作规划:≥100 Hz 控制频率
  • 端到端延迟:<50ms

硬件建议

  • 片上系统(SoC)集成:CPU + NPU + VPU
  • 高带宽内存(HBM):支持大模型权重
  • 低功耗 SRAM:缓存频繁访问的特征

4.3 神经形态计算机会

事件驱动视觉

  • DVS(动态视觉传感器)与 SNN 结合
  • 仅在场景变化时消耗能量
  • 适合移动机器人的低功耗感知

脉冲神经网络推理

  • 将训练好的 VLM 转换为 SNN
  • 保持精度的同时降低功耗 10-100×
  • 未来研究方向:具身 SNN 训练

5. 优点与局限

优点

  1. 多层次具身理解:统一建模空间认知、任务状态和规划能力,超越单一任务模型。

  2. 真实世界验证:在物理机器人上进行了充分评估,证明了 sim-to-real 迁移能力。

  3. 可扩展架构:2B 和 32B 两种规模,适应不同计算资源场景。

  4. 数据效率:利用开源机器人数据集,减少了对昂贵真实世界数据的需求。

  5. 开源潜力:基于开放数据集训练,便于社区复现和扩展。

局限

  1. 计算资源需求:32B 模型需要高端 GPU,限制了边缘部署。

  2. 任务泛化:在未见过的任务类型上性能可能下降。

  3. 长程规划:超过 5 步的复杂任务成功率显著降低(<60%)。

  4. 多智能体协作:当前版本主要针对单智能体任务。

  5. 在线学习:不支持在部署过程中持续学习新技能。


6. 总结

HY-Embodied-0.5 代表了具身 AI 基础模型的重要进展,通过多层次具身理解能力的统一建模,成功弥合了通用 VLM 与真实世界机器人需求之间的差距。

实验结果表明,该模型在 22 个基准测试上表现出色,并在真实机器人控制任务中实现了 76-94% 的成功率。2B 和 32B 两种规模变体为不同应用场景提供了灵活选择。

对 AI 硬件设计的启示包括:视觉 - 语言 - 动作统一加速器架构、边缘部署的功耗 - 性能权衡、以及神经形态计算的潜在机会。未来工作可能包括:扩展多智能体协作能力、增强长程规划、支持在线学习、以及开发专用硬件加速器。


参考文献

[1] Yu, X., et al. (2026). HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents. arXiv preprint arXiv:2604.07430.

[2] Chen, B., et al. (2025). Robo2VLM: Bridging Robot Learning and Vision-Language Models. ICRA 2025.

[3] Sermanet, P., et al. (2024). RoboVQA: Visual Question Answering for Robot Learning. arXiv:2403.XXXXX.

[4] Lu, P., et al. (2023). RoboRefit: Skill Transfer for Robot Manipulation. CoRL 2023.

[5] Li, Y., et al. (2026). RoboInter-VQA: Interactive Visual Question Answering for Robots. ICRA 2026.

[6] Brohan, A., et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818.

[7] Kim, M., et al. (2024). OpenVLA: An Open-Source Vision-Language-Action Model. arXiv:2406.XXXXX.

[8] Black, K., et al. (2024). π₀: A Vision-Language-Action Flow Model for General Robot Control. arXiv:2410.XXXXX.


本文基于 arXiv:2604.07430 论文自动生成,采用 paper_to_blog 工作流转换。