开源2026年3月19日

InSpatio-World

首个以参考视频为条件的4D世界模型——将任意视频转化为可自由探索、导航和回溯的动态世界。

概述

超越画面,进入世界。

InSpatio-World 是首个以参考视频为条件的4D世界模型,将单段视频转化为可自由探索、导航和回溯的动态世界。

物理世界本质上是三维且持续演化的。现有2D或静态模型无法捕捉其真实的空间关系和因果运动。InSpatio-World 通过状态锚定世界建模(State-Anchored World Modeling)克服这些局限。

模型不独立生成帧,而是在时间维度上维护和演化完整的世界状态,实现时空一致的采样,有效抑制长程漂移。

模型规格

模型类型4D生成世界模型
输出基于参考视频的动态4D世界
运行速度单GPU 24 FPS实时生成
参数量13亿
评测排名WorldScore-Dynamic实时方法第一
发布日期2026年3月19日

核心能力

自由空间漫游

从任意视角探索场景,不受原始镜头路径的限制。

时间控制

暂停、减速或倒流时间,以完全的时间自主权重新体验任意时刻。

物理真实感

从参考视频的自然动态出发,在整个探索过程中保持物理一致、真实自然的运动效果。

长程稳定性

即使在长时间探索下,世界仍锚定于参考视频——防止漂移,保持与源场景的一致性。

方法

状态锚定世界建模

现有生成模型模拟像素而非持久世界,导致物理不一致、空间脆弱和时序漂移。InSpatio-World 引入状态锚定世界建模:将世界表示为锚定于参考视频的视角无关局部世界状态。世界状态锚定(World State Anchoring)构建持久状态以保证空间持久性;时空自回归(Spatiotemporal Autoregression)实现以参考视频为条件的精确采样;联合分布匹配蒸馏(Joint Distribution Matching Distillation)在真实保真度与合成可控性之间取得平衡。

评测

实时方法综合排名第一

基于 WorldScore 评测基准——一个统一评估3D、4D及视频生成系统的框架,涵盖可控性、视觉质量和动态一致性。InSpatio-World 的13亿参数模型在 WorldScore-Dynamic 排行榜上位列全部实时方法第一,在单张GPU上达到24 FPS实时生成。

WorldScore-Dynamic基准:InSpatio-World在实时方法中排名第一

4D世界模型应用场景

下游应用

具身智能
自动驾驶
4D相册
仿真
交互媒体

快速上手

在GitHub访问模型

$ git clone https://github.com/inspatio/inspatio-world

模型权重、推理代码和文档均已开源。如需研究访问权限、技术问题或合作咨询:

常见问题

什么是4D世界模型?

4D世界模型在3D空间理解的基础上增加了时间维度,使AI能够推理场景如何随时间演化。InSpatio-World以参考视频为输入,构建持久世界状态,使你能够在任意时刻采样任意视角。

InSpatio-World与视频生成模型有何不同?

视频生成模型在不维护持久世界状态的情况下生成像素序列。InSpatio-World将局部世界状态锚定于参考视频并执行时空自回归——生成几何一致、物理可信、在长序列中保持稳定的视角,而非仅视觉上合理。

InSpatio-World的评测表现如何?

InSpatio-World以13亿参数模型在WorldScore-Dynamic排行榜上位列全部实时方法第一,在单张GPU上达到24 FPS。

InSpatio-World的主要应用场景有哪些?

InSpatio-World可赋能具身智能在动态一致的虚拟世界中训练、支持自动驾驶仿真的真实场景演化、创建交互式4D相册,以及任何需要实时空间一致世界探索的应用。