LiveWorld:浙大与阿德莱德大学等联合开源的解耦式视频世界模型

原创 发布日期:
64

一、LiveWorld是什么

LiveWorld 是阿德莱德大学、浙江大学、澳大利亚国立大学等多校联合团队发布的解耦式生成视频世界模型,LiveWorld 核心创新是将全局世界状态演化单视角画面渲染拆分为两套独立模块,构建持续自主运转的4D虚拟世界,物体脱离镜头后依旧按照物理逻辑自主演变,相机重访时同步更新物体状态,实现长时序场景全局一致性。

项目配套自研行业首个针对视野外动态评测的基准数据集 LiveBench,用于量化模型对镜头外事件推演、三维空间一致性、长时序连贯性的生成能力,当前仓库处于代码与基准数据集分阶段发布筹备阶段。

LiveWorld:浙大与阿德莱德大学等联合开源的解耦式视频世界模型

二、功能特色

  1. 视野外动态自主推演
    打破传统模型“相机看不到=世界静止”的静态假设,所有实体脱离镜头后持续更新位置、交互、状态,重新入镜时呈现符合时间线的变化结果。

  2. 双模块解耦架构
    分离全局世界状态预测器与相机视角渲染器,世界演化不受相机运动干扰,支持任意轨迹、多轮往返重访拍摄。

  3. 原生4D全局场景记忆
    统一存储静态3D背景+动态实体时序状态,长期维持物体身份、空间位置、物理交互因果一致性,无画面漂移、物体消失幻觉问题。

  4. 专属评测基准LiveBench
    内置100组完整场景、400条评估序列,分为同机位重访、新视角重访两类任务,提供标准化VQA-Acc量化指标,专门衡量视野外动态生成效果。

  5. 轻量化开源部署
    完整开源模型推理代码、数据集加载脚本、评测工具链,支持本地GPU推理、自定义场景输入、自定义相机轨迹生成。

  6. 多场景可控生成
    支持文本脚本定义场景事件、自定义相机运动路径、长时序连续视频推演,适配仿真、机器人、游戏素材生成等需求。

三、技术细节

3.1 整体双分支架构

LiveWorld 分为世界动力学分支视角渲染分支两大独立流水线:

  1. 世界动力学分支(核心)

    • 全局状态编码器:提取每帧画面的3D空间信息、实体属性、交互时序,构建持久世界记忆库;

    • 监视器动态推演模块:不依赖相机观测,基于物理先验、事件脚本自主预测所有未观测实体随时间的状态变化;

    • 全局状态更新器:持续迭代整个场景所有物体位置、动作、形态,不受相机视场限制。

  2. 视角渲染分支
    接收当前相机位姿+全局最新世界状态,仅渲染当前镜头可见像素,不参与世界演化计算,实现视角与世界完全解耦。

3.2 关键核心机制

  • 实体持久化表征:为场景内每个物体分配独立时序ID,全程跟踪身份,避免跨镜头物体混淆、消失;

  • 时序因果约束损失:训练阶段增加重访场景对齐损失,强制模型记住视野外事件变化,提升长时序逻辑;

  • 双模式评测任务

    • Same-Pose:相机多次往返同一机位,验证长时序物体状态演化;

    • Different-Pose:全新视角回看旧区域,同步验证三维几何一致性+事件动态推演。

3.3 实验核心指标

以VQA-Acc(事件脚本匹配准确率)为核心评估标准,在两类重访任务中性能大幅领先传统相机可控世界模型:同机位长时序重访、新视角跨机位重访任务得分均显著高于Spatia、Hunyuan-GameCraft-1.0、Matrix-Game-2.0等竞品。

四、应用场景

  1. 具身智能机器人仿真
    机器人移动、转头时,环境内物体持续运动,训练机器人预判视野外物体变化,提升导航、交互规划能力。

  2. 自动驾驶虚拟测试场景生成
    车辆转弯、遮挡后方车辆、行人自主移动,生成真实交通动态仿真数据,弥补真实路测数据不足。

  3. 游戏/虚拟数字内容制作
    开放世界游戏离线素材生成,镜头切换后NPC、道具自主行动,减少人工动画制作成本。

  4. 4D数字孪生场景模拟
    园区、建筑全局动态推演,切换观测视角后完整还原历史时序变化,用于城市、工业仿真推演。

  5. AI视频生成学术研究
    提供LiveBench标准化评测数据集,用于视频世界模型、长时序生成、空间一致性相关论文实验对比。

  6. 多智能体交互模拟
    多个智能体共享同一个持续演化的全局世界,各自独立相机视角互不干扰,模拟群体协同行为。

LiveWorld:浙大与阿德莱德大学等联合开源的解耦式视频世界模型

五、使用方法

5.1 环境前置要求

  • Python 3.9+,CUDA 11.8/12.1,显存≥16GB(推理最低8GB)

  • 依赖:PyTorch、Transformers、Open3D、Diffusers、Pillow、Matplotlib

5.2 仓库克隆

git clone https://github.com/ZichengDuan/LiveWorld.git
cd LiveWorld

5.3 环境安装

conda create -n liveworld python=3.10
conda activate liveworld
pip install -r requirements.txt

5.4 基础推理流程

  1. 下载预训练权重与LiveBench数据集(仓库Release板块更新中);

  2. 修改config.yaml配置文件,设置场景路径、相机轨迹、推理帧数;

  3. 执行单场景视频生成:

python inference.py --ckpt ./pretrain/liveworld.pth --scene ./data/demo_scene --output ./result
  1. LiveBench评测:

python eval_livebench.py --bench_root ./livebench --model_ckpt ./pretrain/liveworld.pth

5.5 自定义场景输入

支持输入单张初始场景图+文本事件脚本,自定义相机移动轨迹txt文件,生成任意时长连续动态视频。

六、竞品对比

选取3款主流开源相机可控世界模型进行横向对比:Matrix-Game-2.0、Hunyuan-GameCraft-1.0、Spatia

对比维度 LiveWorld Matrix-Game-2.0 Hunyuan-GameCraft-1.0 Spatia
核心架构 世界演化+相机渲染解耦 世界与相机耦合建模 单视角视频自回归生成 空间增强耦合扩散模型
视野外动态支持 ✅ 原生支持,物体自主演化 ❌ 镜头外物体冻结 ❌ 仅可见区域更新 ❌ 短时记忆,长时序失效
专属评测基准 自带LiveBench视野外动态数据集 无针对性基准 通用视频画质指标 空间对齐单项评测
长时序一致性 优秀,全局状态持久记忆 较差,远距离重访物体错位 中等,30帧以上逻辑崩坏 一般,跨视角物体易混淆
适用场景 机器人仿真、自动驾驶、开放世界 短视频游戏画面生成 实时游戏镜头渲染 室内短镜头3D视频生成
开源进度 代码&基准逐步发布 完整开源 推理代码开源 权重开源
核心短板 当前权重未完全上线,大显存需求 无全局世界记忆,无法长时序推演 仅支持短镜头,无视野外推演 多物体交互逻辑弱

七、常见问题解答(FAQ)

Q:LiveWorld和普通文生视频模型(Sora、CogVideoX)最核心区别是什么?

A:普通文生视频仅生成单段连续镜头画面,世界状态绑定相机视线;LiveWorld先构建独立持续演化的全局4D世界,再按需渲染任意相机视角,镜头外物体不会静止,更适合仿真、机器人规划类任务。

Q:LiveBench是通用大语言模型评测基准吗?

A:不是,本项目内LiveBench是视频世界模型专用评测数据集,专门衡量视野外动态、跨视角空间一致性;AI大语言模型领域另有同名独立评测基准,二者无关联。

Q:本地运行LiveWorld最低硬件配置要求?

A:推理最低8GB显存,完整训练建议24GB及以上NVIDIA显卡;CPU仅支持轻量化可视化,无法完成完整视频生成与评测。

Q:仓库显示代码正在发布中,何时能获取完整权重?

A:项目README标注Code and benchmark release in progress,完整预训练权重、全部LiveBench数据集将分批次在GitHub Release页面推送,可关注仓库更新通知。

Q:能否输入自定义3D场景模型作为初始环境?

A:支持,项目内置Open3D加载模块,可导入GLB/OBJ静态3D场景作为初始背景,搭配文本脚本定义物体动态规则。

Q:模型生成视频出现物体身份错乱该如何优化?

 

A:在配置文件中开启entity_id_tracking实体跟踪模块,调大时序对齐损失权重,同时缩短单次推理帧数,减少长时序误差累积。

Q:LiveWorld是否支持多智能体同时观测同一个世界?

A:原生支持多相机并行渲染,多个智能体各自独立视角读取同一套全局演化世界状态,适配多机器人协同仿真场景。

八、相关链接

  1. GitHub仓库地址:https://github.com/ZichengDuan/LiveWorld

  2. 论文预印本地址:https://arxiv.org/abs/2603.07145

  3. 项目官方主页:https://zichengduan.github.io/pages/LiveWorld/index.html

  4. HuggingFace模型库:https://huggingface.co/ZichengD/LiveWorld

九、总结

LiveWorld 是首个从架构层面解决视频世界模型视野外动态缺失问题的开源框架,通过解耦全局世界动力学与相机视角渲染,实现脱离镜头的物体自主时序演化,配套行业专属LiveBench评测基准填补了长时序、跨视角世界一致性标准化评估的空白,相比传统耦合式视频生成模型在机器人仿真、自动驾驶数字孪生、开放世界内容生成等工程场景具备不可替代的实用价值,完整开源代码与数据集上线后可为4D世界建模、具身智能领域提供全新研究与落地工具。

打赏
THE END
作者头像
人工智能研究所
发现AI神器,探索AI技术!