InSpatio-World与视频生成模型有什么不同？

视频生成模型产生像素序列，不维护持久的世界状态。InSpatio-World将局部世界状态锚定到参考视频，通过时空自回归生成几何一致、物理合理的视图，在长序列中保持稳定。

InSpatio-World在基准测试中表现如何？

InSpatio-World以1.3B参数模型在WorldScore-Dynamic排行榜上位列所有实时方法第一，单GPU可达24 FPS。

开源2026年3月19日

InSpatio-World

Name: InSpatio-World
Author: InSpatio

首个以参考视频为条件的4D世界模型——将任意视频转化为可自由探索、导航和回溯的动态世界。

阅读技术报告 GitHub

体验 InSpatio-World

概述

超越画面，进入世界。

InSpatio-World 是首个以参考视频为条件的4D世界模型，将单段视频转化为可自由探索、导航和回溯的动态世界。

物理世界本质上是三维且持续演化的。现有2D或静态模型无法捕捉其真实的空间关系和因果运动。InSpatio-World 通过状态锚定世界建模（State-Anchored World Modeling）克服这些局限。

模型不独立生成帧，而是在时间维度上维护和演化完整的世界状态，实现时空一致的采样，有效抑制长程漂移。

模型规格

模型类型4D生成世界模型

输出基于参考视频的动态4D世界

运行速度单GPU 24 FPS实时生成

参数量13亿

评测排名WorldScore-Dynamic实时方法第一

发布日期2026年3月19日

核心能力

自由空间漫游

从任意视角探索场景，不受原始镜头路径的限制。

时间控制

暂停、减速或倒流时间，以完全的时间自主权重新体验任意时刻。

物理真实感

从参考视频的自然动态出发，在整个探索过程中保持物理一致、真实自然的运动效果。

长程稳定性

即使在长时间探索下，世界仍锚定于参考视频——防止漂移，保持与源场景的一致性。

方法

状态锚定世界建模

现有生成模型模拟像素而非持久世界，导致物理不一致、空间脆弱和时序漂移。InSpatio-World 引入状态锚定世界建模：将世界表示为锚定于参考视频的视角无关局部世界状态。世界状态锚定（World State Anchoring）构建持久状态以保证空间持久性；时空自回归（Spatiotemporal Autoregression）实现以参考视频为条件的精确采样；联合分布匹配蒸馏（Joint Distribution Matching Distillation）在真实保真度与合成可控性之间取得平衡。

评测