上海 AI 实验室开源 AETHER 世界模型?
在科技飞速发展的当下,人工智能领域的每一次突破都如同璀璨星辰,照亮人类前行的道路。近日,上海人工智能实验室(上海 AI 实验室)重磅开源了生成式世界模型 AETHER,这一消息犹如一颗投入平静湖面的巨石,激起层层涟漪,为人工智能的发展注入了新的强大动力。
传统世界模型在自动驾驶与游戏开发等领域有广泛应用,它主要依靠丰富的动作标签来预测接下来的视觉画面。然而,其短板也十分明显。由于缺乏对真实三维空间的建模能力,预测结果常常出现违背物理规律的现象。在面对复杂多变的真实场景时,受限于真实数据的不足,其泛化能力更是捉襟见肘。
为了攻克这些难题,上海 AI 实验室的研究团队潜心钻研,提出了生成式世界模型 AETHER。该模型基于三维时空建模,通过引入并构建几何空间,让模型空间推理的准确性与一致性得到大幅提升。研究团队利用海量仿真 RGBD 数据,精心开发了一套完整的数据清洗与动态重建流程,同时标注了丰富的动作序列。在此基础上,他们创新性地提出一种多模态数据的动态融合机制,将动态重建、视频预测和动作规划这三项任务融合在一个统一的框架中进行优化,实现了真正的一体化多任务协同,极大地提高了模型的稳定性与鲁棒性。
实验数据是比较好的证明。传统世界模型通常只关注 RGB 图像的预测,而忽视了背后隐含的几何信息。当引入空间建模后,各项指标均有明显提升,其中视频一致性指标提升约 4%。更令人惊叹的是,即使使用合成数据进行训练,AETHER 模型在真实环境中依然展现出强大的零样本泛化能力,这意味着它可以在未接触过的真实场景中迅速适应并发挥作用。
AETHER 模型在框架中实现了三项关键技术突破,明显提升了具身系统在动态环境中的感知、建模与决策能力。
其一,目标导向视觉规划。AETHER 能够根据起始与目标场景,自动生成一条实现视觉目标的合理路径,并以视频形式呈现全过程。通过联合优化重建与预测目标,它内嵌空间几何先验知识,使生成结果兼具物理合理性。这一特性让具身智能系统如同拥有智慧的人类,能够 “看路规划”。例如,搭载该模型的机器人通过摄像头观察周围环境后,能自动生成既安全又符合物理规律的行动路线,在复杂的环境中自由穿梭,完成各种任务。
其二,4D 动态重建。AETHER 通过自动标注流水线,构建合成 4D 数据集,无需真实世界数据即可实现零样本迁移,精细捕捉并重建时空环境的动态变化。以输入一段街景视频为例,系统能够快速重建包含时间维度的三维场景模型,精确呈现行人行走、车辆运动等动态过程,建模精度可达毫米级。这一技术在城市规划、智能安防等领域有着巨大的应用潜力,能够为相关决策提供极为精细的场景数据支持。
其三,动作条件视频预测。AETHER 创新性地采用相机轨迹作为全局动作表征,可直接基于初始视觉观察和潜在动作,预测未来场景的变化趋势。这就如同给具身智能系统装上了一个能够预测未来的 “神奇镜头”。与传统预测图像变化的世界模型不同,AETHER 不仅能同时完成四维时空的重建与预测,还支持由动作控制驱动的场景推演与路径规划。并且,该方法完全在虚拟数据上训练,即可实现对真实世界的零样本泛化,展现出不可比拟的跨域迁移能力。
AETHER 模型通过巧妙组合不同的条件输入,如观察帧、目标帧和动作轨迹,再结合扩散过程,实现对多种任务的统一建模与生成。可以形象地说,观察帧提供了 “现在的样子”,目标帧给出了 “未来的样子”,动作轨迹则是 “怎么从这里走到那里”,而扩散过程就像是拼图的拼接逻辑,把这些零散信息有序组合起来,2还原出一个连续、合理且可预测的时空过程。
为了支持同时完成重建、预测和规划这三类不同任务,AETHER 精心设计了一种统一的多任务框架,实现在同一个系统中整合动态重建、视频预测和动作规划。其中心之处在于,能够融合图像、动作、深度等多模态信息,建立一个跨模态共享的时空一致性建??占?,实现不同任务在同一认知基础上的协同优化。在多个实验任务中,AETHER 在动态场景重建方面已达到甚至超过现有 SOTA(state-of-the-art,其先进水平)水平。同时,研究人员发现在多任务框架下,各个任务之间相互促进,尤其在动作跟随的准确度上面有较大幅度的提升。
AETHER 生成式世界模型的开源,为整个行业带来了诸多利好。它有望为具身智能大模型在数据增强、路径规划以及基于模型的强化学习等方向研究提供坚实的技术支撑。众多开发者和研究人员可以基于此模型,进一步探索和创新,加速机器人智能化的进程,推动人工智能在更多领域的广泛应用。
随着 AETHER 模型的开源,我们仿佛站在了一个新的科技十字路口,前方是充满无限可能的智能未来。它将如何重塑各个行业的格局?又会给我们的日常生活带来哪些意想不到的改变?让我们拭目以待,共同见证科技的无穷魅力和力量。