Research Article

LeWorldModel: Stable End-to-End JEPA World Models from Pixels

April 01, 2026 · research, world-model, embodied-ai, self-supervised

Rate this article:

0.0 (0 votes)

LeWorldModel: Stable End-to-End JEPA World Models from Pixels

原文链接: arXiv:2603.19312 PDF

摘要

LeWorldModel (LeWM) 是首个能够从原始像素稳定端到端训练的 Joint-Embedding Predictive Architecture (JEPA) 世界模型。与现有方法相比，LeWM 仅需两个损失项（预测损失 + 正则化），将可调超参数从六个减少到一个。该模型仅有 1500 万参数，可在单 GPU 上数小时内完成训练，推理速度比基于基础模型的世界模型快 48 倍，同时在多种 2D 和 3D 控制任务中保持竞争力。

1. 问题定义：世界模型的训练困境

1.1 JEPA 的潜力与挑战

Joint-Embedding Predictive Architectures (JEPAs) 由 Yann LeCun 提出，代表了一种学习世界模型的全新范式：

“Joint Embedding Predictive Architectures (JEPAs) offer a compelling framework for learning world models in compact latent spaces.”

JEPA 的核心思想:

在紧凑的潜在空间（latent space）中学习世界模型
通过预测未来表征而非重建像素来训练
避免生成模型的计算开销和模式崩溃问题

1.2 现有 JEPA 方法的脆弱性

尽管 JEPA 理念吸引人，但现有实现面临严峻挑战：

问题	描述	影响
表征崩溃	编码器输出常数或退化表征	模型失效
复杂损失函数	需要多损失项组合	超参数调优困难
依赖预训练	需要预训练编码器	增加训练复杂度
辅助监督	需要额外监督信号	限制适用范围
EMA 依赖	需要指数移动平均	增加内存和计算开销

现有方法的损失函数对比:

现有 JEPA 方法（如 V-JEPA）:
Loss = L_pred + λ1*L_inv + λ2*L_var + λ3*L_cov + λ4*L_reg + EMA

LeWM (本文):
Loss = L_pred + λ*L_reg
      ↓
仅 1 个可调超参数！

1.3 端到端训练的挑战

“Existing methods remain fragile, relying on complex multi-term losses, exponential moving averages, pre-trained encoders, or auxiliary supervision to avoid representation collapse.”

表征崩溃的原因:

预测任务过于简单（如恒等映射）
潜在空间缺乏结构约束
编码器和预测器联合优化困难

2. LeWorldModel 架构设计

2.1 核心创新：简化即强大

LeWM 的核心洞察：通过精心设计的正则化，可以用极简的损失函数实现稳定训练。

架构组件:

┌─────────────────────────────────────────────────────────────┐
│                  LeWorldModel Architecture                  │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  Input: x_t (当前帧)          Input: x_{t+k} (未来帧)       │
│       │                              │                      │
│       ▼                              ▼                      │
│  ┌─────────┐                    ┌─────────┐                │
│  │ Encoder │                    │ Encoder │                │
│  │   E     │                    │   E     │                │
│  │ (shared)│                    │ (shared)│                │
│  └────┬────┘                    └────┬────┘                │
│       │                              │                      │
│       ▼                              ▼                      │
│    z_t (当前表征)              z_{t+k} (目标表征)           │
│       │                              │                      │
│       │    ┌──────────────┐          │                      │
│       └───►│  Predictor   │◄─────────┘                      │
│            │      P       │                                 │
│            │ (action cond)│                                 │
│            └──────┬───────┘                                 │
│                   │                                         │
│                   ▼                                         │
│            ẑ_{t+k} (预测表征)                               │
│                   │                                         │
│                   ▼                                         │
│            Loss = ||ẑ_{t+k} - z_{t+k}|| + λ*L_reg         │
│                                                             │
└─────────────────────────────────────────────────────────────┘

2.2 关键技术创新

1. 高斯分布正则化 (Gaussian Regularization):

“A regularizer enforcing Gaussian-distributed latent embeddings.”

数学形式:

L_reg = KL(q(z) || N(0, I))

其中：
- q(z): 潜在表征的经验分布
- N(0, I): 标准高斯分布
- KL: KL 散度

作用机制:

防止潜在空间坍缩到常数
鼓励表征的多样性和信息量
提供结构化的潜在空间几何

2. 预测损失 (Prediction Loss):

L_pred = ||P(z_t, a_t) - z_{t+k}||²

其中：
- z_t: 当前时刻表征
- a_t: 动作
- z_{t+k}: 未来时刻目标表征（stop-gradient）
- P: 预测器网络

3. 共享编码器设计:

当前帧和未来帧使用同一编码器
减少参数数量（仅 15M）
强制表征一致性

2.3 与 V-JEPA 的对比

特性	V-JEPA	LeWM (本文)
损失项数量	4-6 项	2 项
可调超参数	4-6 个	1 个
EMA 依赖	是	否
预训练编码器	需要	不需要
辅助监督	需要	不需要
参数量	>100M	15M
训练时间	数天	数小时
推理速度	基准	快 48 倍

3. 实验结果与分析

3.1 控制任务性能

LeWM 在多种 2D 和 3D 控制任务中进行了评估：

任务类型:

2D 控制: Atari 游戏、连续控制任务
3D 控制: 机器人操作、导航任务
规划: 基于模型的强化学习

性能对比:

任务类别	方法	成功率/得分	相对性能
2D 连续控制	V-JEPA	基准	1.0×
	LeWM	竞争	~1.0×
3D 机器人操作	V-JEPA	基准	1.0×
	LeWM	竞争	~1.0×
规划速度	V-JEPA	基准	1.0×
	LeWM	快 48 倍	48×

3.2 潜在空间的物理结构

LeWM 的一个重要发现：潜在空间编码了有意义的物理结构。

探测实验 (Probing):

在潜在空间上训练线性探测器
预测物理量（位置、速度、角度等）
验证表征是否捕获物理规律

结果:

位置预测：高准确率
速度预测：高准确率
碰撞检测：高准确率

意义:

证明 JEPA 确实学习了物理世界的结构化表征
不是简单的像素级记忆
支持因果推理和规划

3.3 惊奇度评估 (Surprise Evaluation)

“Surprise evaluation confirms that the model reliably detects physically implausible events.”

实验设计:

在视频中插入物理上不可能的事件
如：物体突然消失、违反重力、穿墙等
测量模型预测误差（惊奇度）

结果:

物理不可能事件 → 高预测误差（高惊奇度）
物理可能事件 → 低预测误差（低惊奇度）
模型能够可靠区分物理合理/不合理场景

4. 为什么对 AI 硬件重要

4.1 边缘部署的潜力

LeWM 的小规模和高效率使其特别适合边缘 AI：

计算效率:

15M 参数：可部署在移动设备
单 GPU 数小时训练：快速迭代
48 倍推理速度：实时应用

边缘 AI 场景:

场景	需求	LeWM 适用性
机器人控制	实时规划	✅ 高
自动驾驶	预测建模	✅ 高
AR/VR 交互	低延迟预测	✅ 高
游戏 AI	快速响应	✅ 高
无人机导航	轻量级模型	✅ 高

4.2 神经符号 AI 的桥梁

LeWM 的潜在空间结构为神经符号 AI 提供了理想接口：

潜在空间作为符号接口:

原始像素 → [编码器] → 潜在表征 → [符号系统] → 推理结果
                    ↓
              结构化、可解释
              物理量可探测

优势:

潜在表征捕获物理规律
支持符号规则的提取和应用
神经网络 + 符号推理的融合

4.3 世界模型的硬件加速需求

LeWM 的架构特点对硬件设计有重要启示：

1. 编码器-预测器分离:

编码器：感知处理（可共享）
预测器：推理引擎（需快速迭代）
硬件设计：异构计算单元

2. 潜在空间运算:

低维向量运算（vs 高维像素）
适合专用向量处理器
内存带宽需求大幅降低

3. 动作条件预测:

需要高效的向量拼接/条件注入
支持快速动作采样和评估

4.4 对下一代 AI 芯片的启示

专用世界模型加速器的设计考虑：

组件	功能	硬件需求
编码器	感知编码	高效 CNN/Transformer
潜在空间	表征存储	低延迟 SRAM
预测器	未来预测	快速 MLP/Transformer
动作采样	规划搜索	并行计算单元

存算一体 (CIM) 的机会:

潜在空间向量-矩阵乘法
低精度（8-bit）足够
事件驱动计算（仅在动作时）

5. 局限与未来方向

5.1 当前局限

任务范围：主要在控制任务验证，未扩展到更复杂场景
长程预测：预测准确性随时间步增加而下降
动作空间：主要验证离散和连续低维动作
泛化能力：跨领域迁移能力待验证

5.2 未来研究方向

技术演进:

扩展到视觉-语言任务
多模态世界模型
层次化世界模型（多时间尺度）
与 LLM 结合

应用扩展:

科学模拟（物理、化学、生物）
社会系统建模
多智能体交互
因果推理

6. 总结

LeWorldModel 代表了世界模型研究的重要进展：

简化创新：证明 JEPA 可以用极简的损失函数稳定训练
效率突破：15M 参数，单 GPU 数小时训练，48 倍推理加速
表征质量：潜在空间编码物理结构，支持因果推理
实用价值：为边缘 AI 和实时应用提供可行方案

对于 AI 硬件设计，LeWM 提示了几个关键趋势：

小规模高效模型：边缘部署的需求
潜在空间计算：低维表征运算的硬件优化
世界模型加速器：专用硬件支持预测和规划
神经符号融合：硬件支持神经网络 + 符号推理

这项工作为下一代 AI 芯片（特别是面向具身智能和边缘 AI 的芯片）提供了重要的算法参考和性能基准。

参考文献

Maes, L., et al. (2026). LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels. arXiv:2603.19312.
LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. Open Review.
Bardes, A., et al. (2024). Revisiting Feature Prediction for Learning Visual Representations from Video. ICLR.
Assran, M., et al. (2025). V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning. arXiv:2506.09985.