

概览
世界模型,运行于世界之中。
InSpatio-WorldFM是一个专为空间智能从零设计的生成帧模型——不是语言,不是2D视觉,而是物理世界的完整3D结构。
通过围绕实时空间约束重新思考架构,WorldFM在保持消费级硬件可部署性的同时,实现了多视角一致的生成——这一突破消除了世界建模对数据中心级计算的依赖。
以开源方式发布,旨在加速研究并赋能机器人、自主系统和具身AI领域新一代空间感知应用。
规格参数
核心能力
实时生成
以实时速度生成空间一致的帧——无需昂贵的数据中心硬件。
多视角一致性
在多个视角间保持几何与语义的一致性,实现连贯的3D场景理解。
边缘设备就绪
针对消费级GPU优化,将前沿世界模型能力带到边缘部署场景。
空间推理
理解深度、几何和物理布局——为机器人、仿真和XR等下游任务提供支持。
为什么世界模型必须是3D的
大多数AI系统在2D层面理解世界——处理像素,却不了解物体在物理空间中的位置。这对分类任务有效,但对于机器人、自主系统和具身AI来说,空间关系、深度和物理动态至关重要。真正的世界模型构建了对环境持续的3D表征,使预测、规划和交互成为可能,而不仅仅是识别。
面向消费级硬件的实时世界模型
现有世界模型需要数据中心级基础设施才能运行。WorldFM通过根本性的架构效率突破了这一限制——在消费级GPU上实现实时3D世界建模。这使前沿世界模型能力无需依赖云计算,即可被研究人员、开发者和边缘部署场景所访问。

世界模型应用:机器人、具身智能与仿真
下游应用
快速开始
在GitHub访问模型
模型权重、推理代码、训练文档和基准测试均可在仓库中获取。如需研究访问、技术问题或合作事宜,请联系:
常见问题
什么是AI中的世界模型?
世界模型是一种AI系统,能够对现实世界的物理结构进行内部建模,使AI能够预测、模拟并与3D环境交互。与仅处理像素的2D视频模型不同,世界模型理解场景的深度、几何结构和物理动态。
InSpatio-WorldFM与其他世界模型有何不同?
WorldFM是专为实时3D空间推理设计的生成帧模型,可在消费级GPU上运行,而非依赖数据中心硬件。它实现了多视角一致的场景生成,完全开源(Apache-2.0)。
世界模型如何应用于机器人和具身智能?
世界模型为机器人提供持续的3D环境理解,使其能够预测动作结果、规划长期任务并在新环境中迁移技能。具身AI系统使用世界模型在真实部署之前模拟物理交互。
WorldFM可以在消费级硬件上运行吗?
可以。InSpatio-WorldFM专为消费级GPU优化,是少数无需数据中心基础设施即可实时运行的3D世界模型之一。