Research Article

LeWorldModel: Stable End-to-End JEPA from Pixels for Embodied AI

March 31, 2026 · research, embodied-ai, world-models, jepa

Rate this article:

0.0 (0 votes)

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

原文链接: arXiv:2603.19312 PDF Project Page

摘要

LeWorldModel (LeWM) 是首个能够从原始像素端到端稳定训练的 Joint-Embedding Predictive Architecture (JEPA)。传统 JEPA 训练面临稳定性挑战，通常需要复杂的训练技巧和多个损失项。LeWM 仅使用两个损失项——下一时刻嵌入预测损失和正则化项（强制潜在嵌入服从高斯分布）——就实现了稳定的端到端训练。这项工作为 embodied AI 和 world modeling 提供了新的技术路径。

作者: Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero

1. 问题定义

World models（世界模型）是 embodied AI 的核心组件，使智能体能够预测环境动态并规划行动。然而，训练稳定的 world models 面临重大挑战：

“Traditional world models often suffer from training instability, requiring careful tuning of multiple loss terms and hyperparameters.”

现有方法通常需要：

复杂的损失函数组合（重构损失、对比损失、KL 散度等）
精心设计的训练策略和课程学习
大量的工程调优才能实现稳定训练

JEPA (Joint-Embedding Predictive Architecture) 由 Yann LeCun 提出，通过预测潜在空间中的表示而非像素空间，避免了像素级重构的计算开销。但 JEPA 的稳定训练一直是一个开放问题。

2. 方法框架

LeWorldModel 的核心创新在于简化了 JEPA 的训练目标，仅使用两个关键损失项：

2.1 架构设计

LeWM 采用编码器-预测器架构：

编码器 (Encoder): 将输入图像映射到潜在嵌入空间
预测器 (Predictor): 基于当前嵌入预测下一时刻的嵌入
目标编码器 (Target Encoder): EMA 更新的目标网络，提供预测目标

2.2 双损失训练策略

LeWM 的关键突破在于仅使用两个损失项实现稳定训练：

损失 1: 下一时刻嵌入预测损失

L_pred = ||pred_emb - target_emb||²

预测器输出的嵌入与目标编码器产生的目标嵌入之间的均方误差。

损失 2: 高斯正则化项

L_reg = KL(emb || N(0, I))

强制潜在嵌入服从标准高斯分布，防止表示坍缩。

“The Gaussian regularization acts as a natural information bottleneck, encouraging the model to learn compact yet informative representations.”

2.3 与 V-JEPA 的关系

LeWM 与 Meta 的 V-JEPA 系列工作一脉相承：

V-JEPA 2 (2025): 自监督视频模型，实现理解、预测和规划
V-JEPA 2.1 (2026): 密集特征的世界建模
LeWorldModel (2026): 首次实现端到端稳定训练的 JEPA

3. 关键创新

3.1 训练稳定性

LeWM 的核心贡献是证明了 JEPA 可以通过极简的损失设计实现稳定训练：

方法	损失项数量	训练稳定性	端到端训练
传统 World Models	3-5	不稳定	困难
V-JEPA	2-3	中等	部分
LeWM	2	稳定	完全支持

3.2 计算效率

由于避免了像素级重构，LeWM 具有显著的计算优势：

更低的内存占用: 无需存储完整的图像重构
更快的训练速度: 潜在空间预测比像素重构更高效
更好的扩展性: 可处理高分辨率视频

3.3 表示质量

高斯正则化带来了额外的优势：

防止表示坍缩
鼓励学习语义丰富的特征
为下游任务提供良好的初始化

4. 为什么对 AI 硬件重要

4.1 计算模式分析

LeWM 的计算特性对硬件设计有重要启示：

嵌入预测 vs 像素重构:

潜在空间维度通常远低于像素空间（如 256-dim vs 224×224×3）
矩阵乘法占比高，适合专用加速器
内存带宽需求显著降低

自监督训练的优势:

无需标注数据，降低数据预处理开销
连续学习特性适合边缘设备部署
可与其他任务共享特征提取器

4.2 硬件设计启示

内存优化:

潜在嵌入的紧凑表示减少片上存储需求
预测器的轻量设计适合移动端 NPU

计算效率:

编码器-预测器架构可流水线化执行
EMA 更新适合异步硬件实现

边缘部署潜力:

稳定的训练过程降低了部署复杂度
自监督特性支持持续学习

5. 局限与未来方向

局限

当前主要在视觉任务上验证
大规模视频数据的训练效率待验证
与语言模型的结合尚未探索

未来方向

多模态扩展: 结合视觉、语言和动作的世界模型
机器人应用: 在真实机器人平台上的部署
硬件协同设计: 针对 JEPA 架构的专用加速器

6. 总结

LeWorldModel 代表了 world modeling 领域的重要进展：

极简设计: 仅两个损失项实现稳定训练
端到端训练: 首次实现 JEPA 的完全端到端训练
计算高效: 潜在空间预测大幅降低计算开销
硬件友好: 架构特性适合边缘 AI 部署

对于 AI 芯片设计，LeWM 提示了一个重要趋势：未来的加速器不仅要优化推理，还要支持高效的自监督学习和 world model 训练。

参考文献

Maes, L., Le Lidec, Q., Scieur, D., LeCun, Y., & Balestriero, R. (2026). LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels. arXiv:2603.19312.
Assran, M., et al. (2025). V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning. arXiv:2506.09985.
Bardes, A., et al. (2024). Revisiting Feature Prediction for Learning Visual Representations. arXiv:2404.08498.