开源2026年3月4日

InSpatio-WorldFM

面向空间智能的开源实时生成帧模型——在消费级GPU上实现多视角一致的3D世界建模。

概览

世界模型,运行于世界之中。

InSpatio-WorldFM是一个专为空间智能从零设计的生成帧模型——不是语言,不是2D视觉,而是物理世界的完整3D结构。

通过围绕实时空间约束重新思考架构,WorldFM在保持消费级硬件可部署性的同时,实现了多视角一致的生成——这一突破消除了世界建模对数据中心级计算的依赖。

以开源方式发布,旨在加速研究并赋能机器人、自主系统和具身AI领域新一代空间感知应用。

规格参数

模型类型生成帧模型
输出多视角一致3D帧
运行时消费级GPU实时推理
发布日期2026年3月4日
许可证开源
任务交互式3D场景生成

核心能力

实时生成

以实时速度生成空间一致的帧——无需昂贵的数据中心硬件。

多视角一致性

在多个视角间保持几何与语义的一致性,实现连贯的3D场景理解。

边缘设备就绪

针对消费级GPU优化,将前沿世界模型能力带到边缘部署场景。

空间推理

理解深度、几何和物理布局——为机器人、仿真和XR等下游任务提供支持。

为什么世界模型必须是3D的

大多数AI系统在2D层面理解世界——处理像素,却不了解物体在物理空间中的位置。这对分类任务有效,但对于机器人、自主系统和具身AI来说,空间关系、深度和物理动态至关重要。真正的世界模型构建了对环境持续的3D表征,使预测、规划和交互成为可能,而不仅仅是识别。

面向消费级硬件的实时世界模型

现有世界模型需要数据中心级基础设施才能运行。WorldFM通过根本性的架构效率突破了这一限制——在消费级GPU上实现实时3D世界建模。这使前沿世界模型能力无需依赖云计算,即可被研究人员、开发者和边缘部署场景所访问。

世界模型应用:机器人、具身智能与仿真

下游应用

机器人
自主系统
具身智能
仿真
XR与交互媒体

快速开始

在GitHub访问模型

$ git clone https://github.com/inspatio/worldfm

模型权重、推理代码、训练文档和基准测试均可在仓库中获取。如需研究访问、技术问题或合作事宜,请联系:

常见问题

什么是AI中的世界模型?

世界模型是一种AI系统,能够对现实世界的物理结构进行内部建模,使AI能够预测、模拟并与3D环境交互。与仅处理像素的2D视频模型不同,世界模型理解场景的深度、几何结构和物理动态。

InSpatio-WorldFM与其他世界模型有何不同?

WorldFM是专为实时3D空间推理设计的生成帧模型,可在消费级GPU上运行,而非依赖数据中心硬件。它实现了多视角一致的场景生成,完全开源(Apache-2.0)。

世界模型如何应用于机器人和具身智能?

世界模型为机器人提供持续的3D环境理解,使其能够预测动作结果、规划长期任务并在新环境中迁移技能。具身AI系统使用世界模型在真实部署之前模拟物理交互。

WorldFM可以在消费级硬件上运行吗?

可以。InSpatio-WorldFM专为消费级GPU优化,是少数无需数据中心基础设施即可实时运行的3D世界模型之一。