Research Article
LeWorldModel: Stable End-to-End JEPA from Pixels for Embodied AI
LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
原文链接: arXiv:2603.19312 Project Page
摘要
LeWorldModel (LeWM) 是首个能够从原始像素端到端稳定训练的 Joint-Embedding Predictive Architecture (JEPA)。传统 JEPA 训练面临稳定性挑战,通常需要复杂的训练技巧和多个损失项。LeWM 仅使用两个损失项——下一时刻嵌入预测损失和正则化项(强制潜在嵌入服从高斯分布)——就实现了稳定的端到端训练。这项工作为 embodied AI 和 world modeling 提供了新的技术路径。
作者: Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero
1. 问题定义
World models(世界模型)是 embodied AI 的核心组件,使智能体能够预测环境动态并规划行动。然而,训练稳定的 world models 面临重大挑战:
“Traditional world models often suffer from training instability, requiring careful tuning of multiple loss terms and hyperparameters.”
现有方法通常需要:
- 复杂的损失函数组合(重构损失、对比损失、KL 散度等)
- 精心设计的训练策略和课程学习
- 大量的工程调优才能实现稳定训练
JEPA (Joint-Embedding Predictive Architecture) 由 Yann LeCun 提出,通过预测潜在空间中的表示而非像素空间,避免了像素级重构的计算开销。但 JEPA 的稳定训练一直是一个开放问题。
2. 方法框架
LeWorldModel 的核心创新在于简化了 JEPA 的训练目标,仅使用两个关键损失项:
2.1 架构设计
LeWM 采用编码器-预测器架构:
- 编码器 (Encoder): 将输入图像映射到潜在嵌入空间
- 预测器 (Predictor): 基于当前嵌入预测下一时刻的嵌入
- 目标编码器 (Target Encoder): EMA 更新的目标网络,提供预测目标
2.2 双损失训练策略
LeWM 的关键突破在于仅使用两个损失项实现稳定训练:
损失 1: 下一时刻嵌入预测损失
L_pred = ||pred_emb - target_emb||²
预测器输出的嵌入与目标编码器产生的目标嵌入之间的均方误差。
损失 2: 高斯正则化项
L_reg = KL(emb || N(0, I))
强制潜在嵌入服从标准高斯分布,防止表示坍缩。
“The Gaussian regularization acts as a natural information bottleneck, encouraging the model to learn compact yet informative representations.”
2.3 与 V-JEPA 的关系
LeWM 与 Meta 的 V-JEPA 系列工作一脉相承:
- V-JEPA 2 (2025): 自监督视频模型,实现理解、预测和规划
- V-JEPA 2.1 (2026): 密集特征的世界建模
- LeWorldModel (2026): 首次实现端到端稳定训练的 JEPA
3. 关键创新
3.1 训练稳定性
LeWM 的核心贡献是证明了 JEPA 可以通过极简的损失设计实现稳定训练:
| 方法 | 损失项数量 | 训练稳定性 | 端到端训练 |
|---|---|---|---|
| 传统 World Models | 3-5 | 不稳定 | 困难 |
| V-JEPA | 2-3 | 中等 | 部分 |
| LeWM | 2 | 稳定 | 完全支持 |
3.2 计算效率
由于避免了像素级重构,LeWM 具有显著的计算优势:
- 更低的内存占用: 无需存储完整的图像重构
- 更快的训练速度: 潜在空间预测比像素重构更高效
- 更好的扩展性: 可处理高分辨率视频
3.3 表示质量
高斯正则化带来了额外的优势:
- 防止表示坍缩
- 鼓励学习语义丰富的特征
- 为下游任务提供良好的初始化
4. 为什么对 AI 硬件重要
4.1 计算模式分析
LeWM 的计算特性对硬件设计有重要启示:
嵌入预测 vs 像素重构:
- 潜在空间维度通常远低于像素空间(如 256-dim vs 224×224×3)
- 矩阵乘法占比高,适合专用加速器
- 内存带宽需求显著降低
自监督训练的优势:
- 无需标注数据,降低数据预处理开销
- 连续学习特性适合边缘设备部署
- 可与其他任务共享特征提取器
4.2 硬件设计启示
内存优化:
- 潜在嵌入的紧凑表示减少片上存储需求
- 预测器的轻量设计适合移动端 NPU
计算效率:
- 编码器-预测器架构可流水线化执行
- EMA 更新适合异步硬件实现
边缘部署潜力:
- 稳定的训练过程降低了部署复杂度
- 自监督特性支持持续学习
5. 局限与未来方向
局限
- 当前主要在视觉任务上验证
- 大规模视频数据的训练效率待验证
- 与语言模型的结合尚未探索
未来方向
- 多模态扩展: 结合视觉、语言和动作的世界模型
- 机器人应用: 在真实机器人平台上的部署
- 硬件协同设计: 针对 JEPA 架构的专用加速器
6. 总结
LeWorldModel 代表了 world modeling 领域的重要进展:
- 极简设计: 仅两个损失项实现稳定训练
- 端到端训练: 首次实现 JEPA 的完全端到端训练
- 计算高效: 潜在空间预测大幅降低计算开销
- 硬件友好: 架构特性适合边缘 AI 部署
对于 AI 芯片设计,LeWM 提示了一个重要趋势:未来的加速器不仅要优化推理,还要支持高效的自监督学习和 world model 训练。
参考文献
- Maes, L., Le Lidec, Q., Scieur, D., LeCun, Y., & Balestriero, R. (2026). LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels. arXiv:2603.19312.
- Assran, M., et al. (2025). V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning. arXiv:2506.09985.
- Bardes, A., et al. (2024). Revisiting Feature Prediction for Learning Visual Representations. arXiv:2404.08498.