Xiaomi Auto WorldModel：小米推出的自动驾驶仿真与数据生成AI模型

AI新闻 AI工具箱 1个月前

107

一、Xiaomi Auto WorldModel是什么？

Xiaomi Auto WorldModel（小米汽车自动驾驶联合世界模型）是小米面向自动驾驶领域打造的重建+生成深度耦合一体化世界模型框架，该框架创新性融合三维场景重建、时序视频生成两大核心能力，由 WorldRec、WorldGen、Joint World Model 三大模块协同构成，彻底解决传统自动驾驶仿真、数据生成方案中重建效率低、视频生成易漂移、几何与视觉效果割裂等行业痛点。

区别于传统“先独立重建3D场景、再单独生成视频”的松散组合模式，Xiaomi Auto WorldModel 实现了几何表征与视觉生成的深度绑定，既保障三维场景的真实几何精度，又实现长时序、多视角、复杂路况视频的高效生成，是面向自动驾驶仿真训练、数据扩充、端到端模型训练的全链路技术解决方案，目前在主流自动驾驶公开数据集上性能达到行业顶尖水平。

Xiaomi Auto WorldModel：小米推出的自动驾驶仿真与数据生成AI模型

二、核心功能特色

Xiaomi Auto WorldModel 围绕自动驾驶全流程使用需求，打造多维度核心能力，整体功能可分为三大板块，具备高效率、高保真、高稳定、强耦合四大核心优势：

极速三维场景重建

摒弃传统3D高斯渲染数小时逐场景优化模式，实现10秒完成10秒时长视频对应的全场景三维重建，大幅降低场景处理耗时。
有效消除重建过程中的重影、伪影、基元爆炸等常见问题，输出高真实度的3D高斯场景表征。

高效因果视频生成

支持单视角、多视角自动驾驶画面生成，推理速度极快，单视角仅需0.19秒/帧，三视角0.46秒/帧。
经过多阶段优化后将去噪步数压缩至4步，相比传统模型提速12倍，最长可稳定生成1分钟连续视频，长时序画面无明显抖动、畸变。
兼容雨天、雾天、夜间、极端路况等长尾场景与特殊天气，覆盖自动驾驶全场景测试需求。

重建与生成联合协同

以三维重建结果作为4D几何锚点，约束视频生成过程，从根源抑制长时序画面漂移、逻辑错乱问题。
利用视频生成能力补全三维重建中未观测到的场景区域，做到几何结构与视觉画面高度统一。
跨帧共享4D场景表征，保证多帧、多视角画面全局一致性，缩小虚拟仿真环境与真实行车环境的差距。

多场景通用适配

原生适配 Waymo、nuScenes 等主流自动驾驶数据集，开箱即可完成模型验证与二次开发。
支持自动驾驶闭环仿真、合成数据制作、端到端算法训练等多元化业务场景，扩展性强。

三、技术细节

本项目整体架构分为WorldRec（世界表征模块）、WorldGen（世界生成模块）、Joint World Model（联合耦合模块） 三层架构，各模块采用差异化技术路线，同时通过统一接口实现深度联动，以下分模块拆解核心技术原理、架构与优化方案。

3.1 WorldRec 快速3D场景重建模块

WorldRec 是整个框架的场景基础层，核心目标是快速输出高精度、轻量化的三维场景表征，替代传统低效的逐场景高斯优化方案。

基础架构：采用稀疏场景查询驱动前馈架构，核心逻辑为稀疏 Token 特征聚合。模型会提取多视角、跨时间维度的图像特征，通过稀疏查询机制筛选有效特征信息，摒弃冗余数据，最终直接输出紧凑的3D高斯表征，全程无需迭代优化。
技术亮点

多维度特征融合：整合同一时刻不同摄像头视角、同一视角不同时间帧的特征，保证三维空间结构完整。
前置防干扰设计：从算法层面规避重影、基元爆炸等3D重建经典缺陷，提升输出质量。

实测性能
在 Waymo、nuScenes 标准数据集下达到当前最优效果：Waymo 数据集 PSNR 达到28.48，SSIM 达到0.861，几何精度与画面保真度行业领先。

3.2 WorldGen 因果视频生成模块

WorldGen 负责基于场景表征生成连续行车视频，依托 DiT 架构打造，采用两阶段训练+三阶段微调的完整训练体系，兼顾生成质量与推理速度。

基础架构：基于 DiT（Diffusion Transformer）搭建视频生成主干网络，天然适配长时序、多分辨率视频生成任务。
训练流程

阶段1：Teacher Forcing 因果约束，强制模型遵循行车时序，杜绝画面逻辑颠倒。
阶段2：ODE 蒸馏优化，将传统数百步去噪压缩至4步，推理速度提升12倍。
阶段3：DMD 分布对齐，缩小模型训练场景与实际推理场景的数据分布差异，提升泛化能力。

双向预训练：先使用海量公开视频数据完成双向基础预训练，让模型学习通用画面、运动逻辑、光影特征。
因果微调：分三阶段精细化调优，保障自动驾驶时序逻辑合理性：

性能指标
标准测试环境下，单视角视频推理 0.19s/帧，三视角 0.46s/帧；nuScenes 数据集下 FID=7.04、FVD=64.97，各项生成指标达到 SOTA（当前最优）水平。

3.3 Joint World Model 联合耦合模块

该模块是本项目的核心创新点，实现 WorldRec 与 WorldGen 的深度融合，打破传统模型“重建、生成相互独立”的壁垒。

耦合逻辑

1. WorldRec 输出4D时空几何表征，作为全局几何锚点；
2. 几何锚点嵌入 WorldGen 生成流程，实时约束画面空间结构；
3. WorldGen 补充场景盲区视觉信息，反向优化三维表征细节；
4. 增量场景融合+自车投影渲染，实现双模块实时联动。

核心技术优势

误差抑制：依靠固定几何锚点，阻止长时序视频生成过程中的误差累积，画面全程稳定。
全局一致：4D表征作为跨帧共享记忆，多帧、多视角画面空间位置、物体形态保持统一。
虚实贴近：仿真画面高度还原真实车载传感器采集效果，降低仿真域到真实域的迁移难度。

Xiaomi Auto WorldModel：小米推出的自动驾驶仿真与数据生成AI模型

四、应用场景

Xiaomi Auto WorldModel 依托三维重建+视频生成的一体化能力，深度落地自动驾驶研发全流程，覆盖企业研发、算法训练、场景测试三大方向，具体应用场景如下：

自动驾驶闭环仿真测试
搭建虚拟行车环境，模拟城市道路、高速路、复杂路口、恶劣天气等各类行车场景，替代部分实车路测，降低测试成本、提升测试安全性。可连续运行长时序仿真任务，稳定还原车辆行驶、障碍物移动、路况变化等动态过程。
自动驾驶合成数据制作
自动驾驶算法训练依赖海量标注数据，真实数据采集成本高、稀有场景样本少。该模型可批量生成合规、高真实度的虚拟行车图像与视频，补充雨天、夜间、突发路况等长尾样本，扩充训练数据集。
端到端自动驾驶模型训练
为端到端感知、决策、控制算法提供标准化虚拟训练数据与仿真环境，研发人员可基于本框架快速完成算法迭代、效果验证，缩短自动驾驶算法研发周期。
场景复现与问题复盘
针对实车路测中出现的特殊工况、故障场景，通过三维重建还原现场环境，再利用视频生成复现完整行车过程，辅助技术人员定位问题、优化算法。

五、使用方法

本项目基于开源网页与模型仓库发布，整体部署、使用流程简洁，分为环境准备、模型调用、基础功能使用三个步骤，适配研发人员、算法工程师使用：

环境访问与前置准备

直接访问官方演示地址：https://jointwm.github.io/，可在线体验基础重建、视频生成演示功能，无需本地部署。
本地部署要求：配置主流深度学习环境，适配 PyTorch、OpenCV、3D Gaussian Splatting 相关依赖库，推荐 GPU 运行环境以保障推理速度。

基础功能在线使用

进入官方网页后，上传车载多视角视频/图像序列（支持主流视频格式、图片格式）。
选择功能模式：「仅3D重建」「仅视频生成」「联合重建+生成」三种模式。
点击执行，等待数秒即可获取三维场景文件、连续生成视频，支持在线预览、文件下载。

二次开发与模型调用

开发者可拉取项目源码，基于现有模块接口进行二次开发，自定义场景参数、生成视角、视频时长。
支持对接自研自动驾驶算法，将本模型作为数据生成、仿真底层模块嵌入自研系统。

Xiaomi Auto WorldModel：小米推出的自动驾驶仿真与数据生成AI模型

六、竞品对比

选取自动驾驶领域同类世界模型/3D重建+视频生成一体化框架共3款主流产品进行横向对比，从核心架构、重建效率、生成能力、耦合模式、适用场景五大维度分析差异，直观体现本项目竞争力。

对比维度	Xiaomi Auto WorldModel	传统分离式3D重建+视频生成框架	单一自动驾驶视频生成模型	通用开源3D高斯重建框架
核心架构	重建、生成深度耦合联合架构，三大模块协同工作	重建、生成两个独立模块，接口简单对接	仅视频生成网络，无原生三维几何模块	专注3D场景重建，无视频生成能力
重建效率	10秒完成10秒视频场景重建，前馈式无迭代	数小时逐场景迭代优化，效率极低	不具备三维重建能力	分钟级~小时级重建，依赖迭代优化
视频生成能力	4步去噪，极速推理，最长1分钟长时序稳定生成	去噪步数多、推理慢，长时序易漂移	生成速度中等，无几何约束，画面漂移明显	无视频生成功能
模块耦合性	强耦合，几何锚点约束生成，双向互补	弱耦合，两者互不干预，几何与视觉易脱节	无耦合设计	单一模块，无耦合概念
核心适用场景	自动驾驶仿真、数据合成、端到端训练全场景	简单场景数据制作，短期仿真任务	短视频素材生成，简单画面补充	静态三维场景建模、离线场景还原

对比总结：Xiaomi Auto WorldModel 最大优势在于一体化设计与综合性能，同时兼顾重建速度、生成质量与模块协同能力；传统分离式框架效率低下、体验割裂；纯视频生成模型缺少几何支撑，无法满足自动驾驶高精度仿真需求；通用3D重建框架功能单一，无法完成动态视频生成任务。在自动驾驶专业场景下，本项目综合优势显著。

七、常见问题解答

Q1：Xiaomi Auto WorldModel 主要面向哪些人群使用？

A：该项目主要面向自动驾驶算法工程师、仿真测试工程师、人工智能研发人员，同时也可供相关领域科研人员开展学术研究、模型对比实验，普通用户可通过官方网页体验基础演示功能。

Q2：本地运行该模型对硬件有什么要求？

A：推荐使用搭载高端独立显卡的设备运行，GPU 显存建议不低于16G，保障3D重建与视频生成的推理速度；仅在线演示功能无需高配置硬件，普通电脑、浏览器即可正常访问使用。

Q3：模型支持自定义视角、视频时长吗？

A：支持。在线演示端可设置基础视角与视频长度，本地部署并二次开发后，能够自由配置多摄像头视角、最长1分钟连续视频，满足个性化场景需求。

Q4：该模型可以处理真实路测采集的原始车载视频吗？

A：可以。模型原生适配 Waymo、nuScenes 等真实自动驾驶数据集，兼容主流车载摄像头拍摄的视频与图像数据，无需复杂预处理即可直接使用。

Q5：生成的视频画面出现轻微失真该如何优化？

A：首先检查输入素材清晰度，优先使用高分辨率原始素材；其次切换联合模式，依靠三维几何锚点约束画面；本地部署用户可微调模型渲染参数，进一步提升画面保真度。

Q6：项目是否完全开源，能否用于商业项目？

A：项目官方演示站点已公开，源码及使用许可可查阅官方页面说明，学术研究场景可免费使用，商用场景需严格遵循项目开源协议。

Xiaomi Auto WorldModel：小米推出的自动驾驶仿真与数据生成AI模型

八、相关链接

项目官方演示与主页地址：https://jointwm.github.io/

九、总结

Xiaomi Auto WorldModel 是小米针对自动驾驶行业痛点打造的一体化联合世界模型，整合快速三维场景重建、高效因果视频生成两大核心能力，通过独创的深度耦合架构解决了传统方案效率低、画面易漂移、几何与视觉脱节等问题。项目在重建速度、视频推理效率、长时序稳定性、场景适配性上均达到行业顶尖水准，不仅能够大幅降低自动驾驶仿真测试、训练数据制作的时间与人力成本，还可以有效缩小虚拟仿真环境和真实行车场景之间的差距，完整覆盖自动驾驶闭环测试、数据扩充、算法训练、场景复盘等核心业务场景。依托简洁的使用流程、优秀的兼容能力与开源开放的模式，该框架成为自动驾驶领域兼具实用性与创新性的底层技术方案，可为行业相关研发工作提供强有力的技术支撑。