Research Article
PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
原文链接: arXiv:2601.03782
摘要
PointWorld 是一个大规模预训练的 3D 世界模型,它将状态和动作统一在共享的 3D 点流(3D point flows)表示中。给定一个或少量 RGB-D 图像以及低级别机器人动作命令,PointWorld 能够预测响应这些动作的 3D 逐像素位移。通过在真实和模拟机器人操作数据上预训练(约 2M 轨迹,500 小时),PointWorld 使单个预训练模型能够在无需任何额外演示或后训练的情况下,实现真实世界中的刚体推动、可变形物体和铰接物体操作以及工具使用。
主要贡献:
- 提出了 PointWorld,一个大规模预训练的 3D 世界模型,统一状态和动作为 3D 点流
- 构建并开源了一个大规模 3D 交互数据集,包含约 2M 轨迹(500 小时)
- 展示了单个预训练模型使真实机器人能够从单次 in-the-wild RGB-D 捕获执行多样化操作任务
1. 问题定义
“World modeling in unstructured environments is imperative for general-purpose robots: predicting how the world evolves from what the robot sees and intends to do with its body.”
通用机器人的核心挑战是在非结构化环境中进行世界建模:根据机器人所见和预期动作预测世界如何演变。人类能够”从一瞥和抓握中”预测变形、铰接、稳定性和接触响应,这种能力对机器人操作同样至关重要。
现有方法的局限性:
- 基于物理的模型:虽然预测准确,但面临 sim-to-real 差距,需要特定环境的建模
- 学习型动力学模型:通常依赖领域特定的归纳偏置(如完全可观测性、物体性先验或材料规格)
- 大规模视频生成模型:能生成逼真预测,但缺乏显式动作条件,物理一致性不足
核心目标:构建一个预测模型,仅从开放世界设置中的感知输入,基于视觉观察和预期动作进行空间接地、动作条件的预测。
2. 方法框架
PointWorld 的核心哲学是统一以实现扩展:在 3D 物理空间的同一模态中表示状态和动作。
图:PointWorld 整体框架(来源:原文 Figure 2)
2.1 状态表示
“State is represented by a full-scene 3D point cloud built from RGB-D captures”
状态由从 RGB-D 捕获构建的全场景 3D 点云表示:
- 从校准的 RGB-D 视图中,通过正向运动学(使用 URDF 和关节配置)掩蔽机器人像素
- 反投影剩余像素获得场景点
s_t = {(p_t,i, f_i^S)},其中p_t,i ∈ R^3是位置,f_i^S是时间不变特征 - 使用冻结的 DINOv3 编码器通过 2D 投影对场景点进行特征化
2.2 动作表示
“Actions are dense 3D point trajectories instantiated from the agent’s own embodiment”
动作表示为机器人 3D 点流:
- 给定关节配置序列
{q_t+k},在时间 t 采样机器人表面点一次 - 将每个点附加到对应的连杆,通过正向运动学传播得到有序机器人点集
- 仅从夹持器采样机器人点流(每个夹持器几百个点),提高效率
- 这种表示是embodiment-agnostic的,能够从不同机器人构型中学习
2.3 动力学预测
采用多步(分块)公式,在单次前向传播中预测未来 H 步的状态:
F_θ^H: (s_t, a_t:t+H-1) → s_t+1:t+H
其中 H=10 步,每步 0.1 秒。
架构设计:
- 连接初始场景点和时间堆叠的机器人点形成单个点云
- 使用 PointTransformerV3 (PTv3) 作为骨干网络
- 共享 MLP 头预测场景点在块内每步的逐点位移
- 实时推理:0.1 秒/批次前向传播
2.4 训练目标
3D 世界建模面临两个独特挑战:
- 稀疏训练信号:机器人通常只操作场景的一小部分,大多数点是静态的
- 真实世界数据噪声:需要正则化以提高鲁棒性
解决方案:
(1)运动加权(Movement Weighting)
m_k,i = σ(κ(δ_k,i - τ))
w_k,i = m_k,i / Σ m_k,i
根据真实运动对每个点进行软运动似然加权,聚焦于移动点。
(2)不确定性正则化(Aleatoric Uncertainty Regularization)
预测每个点的标量对数方差 s_k,i,使用 Huber 损失:
L = 1/2 Σ w_k,i [ρ_δ(P̂_t+k,i - P_t+k,i) * e^(-s_k,i) + s_k,i]
3. 实验结果
3.1 骨干网络比较
通过系统比较不同骨干网络,PointTransformerV3 (PTv3) 展现出最佳的可扩展性和效率:
| 骨干网络 | 参数量 | 内存 | FLOPs | 延迟 (ms) | ℓ2 移动 | ℓ2 静态 |
|---|---|---|---|---|---|---|
| GBND (基线) | 1.00x | 1.00x | 1.00x | 13.46 | 0.0390 | 0.0066 |
| PointNet | 1.03x | 0.34x | 0.04x | 5.93 | 0.0369 | 0.0084 |
| PointNet++ | 1.07x | 0.67x | 0.06x | 327.08 | 0.0368 | 0.0073 |
| SparseConv | 33.31x | 7.18x | 1.32x | 17.70 | 0.0396 | 0.0076 |
| Transformer | 41.06x | 0.31x | 3.38x | 30.43 | 0.0339 | 0.0071 |
| PTv3-50M | 49.14x | 0.30x | 0.34x | 59.60 | 0.0331 | 0.0067 |
| PTv3-132M | 127.22x | 0.69x | 1.04x | 69.60 | 0.0324 | 0.0061 |
| PTv3-411M | 398.67x | 1.89x | 1.90x | 102.47 | 0.0315 | 0.0059 |
| PTv3-1B | 957.71x | 4.30x | 3.57x | 123.65 | 0.0312 | 0.0056 |
关键发现:PTv3 可扩展到 957x 基线参数量,同时保持适度的内存和运行时增长(PTv3-1B ≈ 0.12 秒)。
3.2 缩放规律
“Scaling model size from 50M to 1B parameters yields smooth, log-linear gains”
在数据和模型规模上的扩展都产生近似对数线性的收益,符合视觉和语言建模中的缩放规律观察。
3.3 泛化与迁移
在不同域之间的零样本和微调设置下评估泛化能力:
| 设置 | 域内 (D→D) | 域内 (B→B) | 跨域 (D→B) | 跨域 (B→D) | 保持真实 (D→H) | 保持真实 (B→H) | 联合训练 (D+B→H) |
|---|---|---|---|---|---|---|---|
| ℓ2 移动 ↓ | 0.0315 | 0.0087 | 0.1460 | 0.0558 | 0.0305 | 0.0531 | 0.0300 |
| ℓ2 静态 ↓ | 0.0059 | 0.0010 | 0.0050 | 0.0021 | 0.0058 | 0.0020 | 0.0055 |
关键发现:
- 在 DROID 和 BEHAVIOR 联合预训练的模型能够零样本泛化到未见过的真实场景
- 仅使用模拟数据预训练的模型无法零样本泛化
- 微调进一步提高了抓取物体轨迹的准确性
3.4 真实世界操作
PointWorld 与基于采样的 MPC 规划器(MPPI)集成,在真实机器人上实现零样本操作:
- 刚体推动:成功推动各种物体到目标位置
- 可变形物体操作:处理布料、绳索等柔性物体
- 铰接物体操作:打开抽屉、门等
- 工具使用:使用工具完成目标任务
推理速度:0.1 秒实时延迟,支持高效采样式 MPC
4. 优点与局限
优点
- Embodiment-agnostic:统一的 3D 点流表示允许从不同机器人构型中学习
- 实时推理:单次前向传播预测整个动作块,支持高效 MPC
- 零样本泛化:单个预训练模型能够处理未见过的场景和任务
- 密集监督:像素级监督信号,编码广泛的机器人操作能力
- 可扩展性:支持大规模参数扩展(高达 1B 参数)
局限
- 部分可观测性:依赖单视角或少数视角的 RGB-D 输入,可能丢失遮挡区域信息
- 真实世界数据质量:依赖 3D 标注质量,深度估计和相机姿态误差会影响性能
- 任务指定:任务相关点需要人工通过 GUI 指定或由 VLM 提供
- 计算资源:大规模模型训练需要显著的 GPU 资源
5. 总结
PointWorld 展示了通过统一状态和动作为 3D 点流进行大规模 3D 世界建模的可行性。通过系统性研究骨干网络设计、动作表示、学习目标、部分可观测性、数据混合、域迁移和缩放规律,作者提炼出大规模 3D 动力学学习的设计原则。
关键洞见:
- 现代点云骨干(PTv3) 对于 3D 世界建模是有效、高效且可扩展的
- 运动加权和不确定性正则化 对于在真实世界数据上稳定训练至关重要
- 预训练 2D 特征(DINOv3) 提供关键的物体性先验
- 模型规模扩展 对于吸收大规模世界建模数据是必要的
PointWorld 为通用机器人的世界建模迈出了重要一步,展示了从单次 in-the-wild 捕获实现多样化操作行为的潜力。
参考文献
-
Huang W, Chao Y-W, Mousavian A, Liu M-Y, Fox D, Mo K, Fei-Fei L. PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation. arXiv preprint arXiv:2601.03782, 2026.
-
Ai X, et al. A Survey on World Models for Embodied AI. 2025.
-
Li Y, et al. Learning Physical Dynamics with Graph Neural Networks. NeurIPS, 2023.
-
Welters A, et al. Large-Scale Video Generation for World Modeling. CVPR, 2025.
-
Chen H, et al. Sonata: Scalable 3D Representation Learning. ICCV, 2025.