Xiaomi Auto WorldModel:小米推出的自动驾驶仿真与数据生成AI模型
一、Xiaomi Auto WorldModel是什么?
Xiaomi Auto WorldModel(小米汽车自动驾驶联合世界模型)是小米面向自动驾驶领域打造的重建+生成深度耦合一体化世界模型框架,该框架创新性融合三维场景重建、时序视频生成两大核心能力,由 WorldRec、WorldGen、Joint World Model 三大模块协同构成,彻底解决传统自动驾驶仿真、数据生成方案中重建效率低、视频生成易漂移、几何与视觉效果割裂等行业痛点。
区别于传统“先独立重建3D场景、再单独生成视频”的松散组合模式,Xiaomi Auto WorldModel 实现了几何表征与视觉生成的深度绑定,既保障三维场景的真实几何精度,又实现长时序、多视角、复杂路况视频的高效生成,是面向自动驾驶仿真训练、数据扩充、端到端模型训练的全链路技术解决方案,目前在主流自动驾驶公开数据集上性能达到行业顶尖水平。

二、核心功能特色
Xiaomi Auto WorldModel 围绕自动驾驶全流程使用需求,打造多维度核心能力,整体功能可分为三大板块,具备高效率、高保真、高稳定、强耦合四大核心优势:
极速三维场景重建
摒弃传统3D高斯渲染数小时逐场景优化模式,实现10秒完成10秒时长视频对应的全场景三维重建,大幅降低场景处理耗时。
有效消除重建过程中的重影、伪影、基元爆炸等常见问题,输出高真实度的3D高斯场景表征。
高效因果视频生成
支持单视角、多视角自动驾驶画面生成,推理速度极快,单视角仅需0.19秒/帧,三视角0.46秒/帧。
经过多阶段优化后将去噪步数压缩至4步,相比传统模型提速12倍,最长可稳定生成1分钟连续视频,长时序画面无明显抖动、畸变。
兼容雨天、雾天、夜间、极端路况等长尾场景与特殊天气,覆盖自动驾驶全场景测试需求。
重建与生成联合协同
以三维重建结果作为4D几何锚点,约束视频生成过程,从根源抑制长时序画面漂移、逻辑错乱问题。
利用视频生成能力补全三维重建中未观测到的场景区域,做到几何结构与视觉画面高度统一。
跨帧共享4D场景表征,保证多帧、多视角画面全局一致性,缩小虚拟仿真环境与真实行车环境的差距。
多场景通用适配
原生适配 Waymo、nuScenes 等主流自动驾驶数据集,开箱即可完成模型验证与二次开发。
支持自动驾驶闭环仿真、合成数据制作、端到端算法训练等多元化业务场景,扩展性强。
三、技术细节
本项目整体架构分为WorldRec(世界表征模块)、WorldGen(世界生成模块)、Joint World Model(联合耦合模块) 三层架构,各模块采用差异化技术路线,同时通过统一接口实现深度联动,以下分模块拆解核心技术原理、架构与优化方案。
3.1 WorldRec 快速3D场景重建模块
WorldRec 是整个框架的场景基础层,核心目标是快速输出高精度、轻量化的三维场景表征,替代传统低效的逐场景高斯优化方案。
基础架构:采用稀疏场景查询驱动前馈架构,核心逻辑为稀疏 Token 特征聚合。模型会提取多视角、跨时间维度的图像特征,通过稀疏查询机制筛选有效特征信息,摒弃冗余数据,最终直接输出紧凑的3D高斯表征,全程无需迭代优化。
技术亮点
多维度特征融合:整合同一时刻不同摄像头视角、同一视角不同时间帧的特征,保证三维空间结构完整。
前置防干扰设计:从算法层面规避重影、基元爆炸等3D重建经典缺陷,提升输出质量。
实测性能
在 Waymo、nuScenes 标准数据集下达到当前最优效果:Waymo 数据集 PSNR 达到28.48,SSIM 达到0.861,几何精度与画面保真度行业领先。
3.2 WorldGen 因果视频生成模块
WorldGen 负责基于场景表征生成连续行车视频,依托 DiT 架构打造,采用两阶段训练+三阶段微调的完整训练体系,兼顾生成质量与推理速度。
基础架构:基于 DiT(Diffusion Transformer)搭建视频生成主干网络,天然适配长时序、多分辨率视频生成任务。
训练流程
阶段1:Teacher Forcing 因果约束,强制模型遵循行车时序,杜绝画面逻辑颠倒。
阶段2:ODE 蒸馏优化,将传统数百步去噪压缩至4步,推理速度提升12倍。
阶段3:DMD 分布对齐,缩小模型训练场景与实际推理场景的数据分布差异,提升泛化能力。
双向预训练:先使用海量公开视频数据完成双向基础预训练,让模型学习通用画面、运动逻辑、光影特征。
因果微调:分三阶段精细化调优,保障自动驾驶时序逻辑合理性:
性能指标
标准测试环境下,单视角视频推理 0.19s/帧,三视角 0.46s/帧;nuScenes 数据集下 FID=7.04、FVD=64.97,各项生成指标达到 SOTA(当前最优)水平。
3.3 Joint World Model 联合耦合模块
该模块是本项目的核心创新点,实现 WorldRec 与 WorldGen 的深度融合,打破传统模型“重建、生成相互独立”的壁垒。
耦合逻辑
1. WorldRec 输出4D时空几何表征,作为全局几何锚点; 2. 几何锚点嵌入 WorldGen 生成流程,实时约束画面空间结构; 3. WorldGen 补充场景盲区视觉信息,反向优化三维表征细节; 4. 增量场景融合+自车投影渲染,实现双模块实时联动。
核心技术优势
误差抑制:依靠固定几何锚点,阻止长时序视频生成过程中的误差累积,画面全程稳定。
全局一致:4D表征作为跨帧共享记忆,多帧、多视角画面空间位置、物体形态保持统一。
虚实贴近:仿真画面高度还原真实车载传感器采集效果,降低仿真域到真实域的迁移难度。

四、应用场景
Xiaomi Auto WorldModel 依托三维重建+视频生成的一体化能力,深度落地自动驾驶研发全流程,覆盖企业研发、算法训练、场景测试三大方向,具体应用场景如下:
自动驾驶闭环仿真测试
搭建虚拟行车环境,模拟城市道路、高速路、复杂路口、恶劣天气等各类行车场景,替代部分实车路测,降低测试成本、提升测试安全性。可连续运行长时序仿真任务,稳定还原车辆行驶、障碍物移动、路况变化等动态过程。自动驾驶合成数据制作
自动驾驶算法训练依赖海量标注数据,真实数据采集成本高、稀有场景样本少。该模型可批量生成合规、高真实度的虚拟行车图像与视频,补充雨天、夜间、突发路况等长尾样本,扩充训练数据集。端到端自动驾驶模型训练
为端到端感知、决策、控制算法提供标准化虚拟训练数据与仿真环境,研发人员可基于本框架快速完成算法迭代、效果验证,缩短自动驾驶算法研发周期。场景复现与问题复盘
针对实车路测中出现的特殊工况、故障场景,通过三维重建还原现场环境,再利用视频生成复现完整行车过程,辅助技术人员定位问题、优化算法。
五、使用方法
本项目基于开源网页与模型仓库发布,整体部署、使用流程简洁,分为环境准备、模型调用、基础功能使用三个步骤,适配研发人员、算法工程师使用:
环境访问与前置准备
直接访问官方演示地址:https://jointwm.github.io/,可在线体验基础重建、视频生成演示功能,无需本地部署。
本地部署要求:配置主流深度学习环境,适配 PyTorch、OpenCV、3D Gaussian Splatting 相关依赖库,推荐 GPU 运行环境以保障推理速度。
基础功能在线使用
进入官方网页后,上传车载多视角视频/图像序列(支持主流视频格式、图片格式)。
选择功能模式:「仅3D重建」「仅视频生成」「联合重建+生成」三种模式。
点击执行,等待数秒即可获取三维场景文件、连续生成视频,支持在线预览、文件下载。
二次开发与模型调用
开发者可拉取项目源码,基于现有模块接口进行二次开发,自定义场景参数、生成视角、视频时长。
支持对接自研自动驾驶算法,将本模型作为数据生成、仿真底层模块嵌入自研系统。

六、竞品对比
选取自动驾驶领域同类世界模型/3D重建+视频生成一体化框架共3款主流产品进行横向对比,从核心架构、重建效率、生成能力、耦合模式、适用场景五大维度分析差异,直观体现本项目竞争力。
| 对比维度 | Xiaomi Auto WorldModel | 传统分离式3D重建+视频生成框架 | 单一自动驾驶视频生成模型 | 通用开源3D高斯重建框架 |
|---|---|---|---|---|
| 核心架构 | 重建、生成深度耦合联合架构,三大模块协同工作 | 重建、生成两个独立模块,接口简单对接 | 仅视频生成网络,无原生三维几何模块 | 专注3D场景重建,无视频生成能力 |
| 重建效率 | 10秒完成10秒视频场景重建,前馈式无迭代 | 数小时逐场景迭代优化,效率极低 | 不具备三维重建能力 | 分钟级~小时级重建,依赖迭代优化 |
| 视频生成能力 | 4步去噪,极速推理,最长1分钟长时序稳定生成 | 去噪步数多、推理慢,长时序易漂移 | 生成速度中等,无几何约束,画面漂移明显 | 无视频生成功能 |
| 模块耦合性 | 强耦合,几何锚点约束生成,双向互补 | 弱耦合,两者互不干预,几何与视觉易脱节 | 无耦合设计 | 单一模块,无耦合概念 |
| 核心适用场景 | 自动驾驶仿真、数据合成、端到端训练全场景 | 简单场景数据制作,短期仿真任务 | 短视频素材生成,简单画面补充 | 静态三维场景建模、离线场景还原 |
对比总结:Xiaomi Auto WorldModel 最大优势在于一体化设计与综合性能,同时兼顾重建速度、生成质量与模块协同能力;传统分离式框架效率低下、体验割裂;纯视频生成模型缺少几何支撑,无法满足自动驾驶高精度仿真需求;通用3D重建框架功能单一,无法完成动态视频生成任务。在自动驾驶专业场景下,本项目综合优势显著。
七、常见问题解答
Q1:Xiaomi Auto WorldModel 主要面向哪些人群使用?
A:该项目主要面向自动驾驶算法工程师、仿真测试工程师、人工智能研发人员,同时也可供相关领域科研人员开展学术研究、模型对比实验,普通用户可通过官方网页体验基础演示功能。
Q2:本地运行该模型对硬件有什么要求?
A:推荐使用搭载高端独立显卡的设备运行,GPU 显存建议不低于16G,保障3D重建与视频生成的推理速度;仅在线演示功能无需高配置硬件,普通电脑、浏览器即可正常访问使用。
Q3:模型支持自定义视角、视频时长吗?
A:支持。在线演示端可设置基础视角与视频长度,本地部署并二次开发后,能够自由配置多摄像头视角、最长1分钟连续视频,满足个性化场景需求。
Q4:该模型可以处理真实路测采集的原始车载视频吗?
A:可以。模型原生适配 Waymo、nuScenes 等真实自动驾驶数据集,兼容主流车载摄像头拍摄的视频与图像数据,无需复杂预处理即可直接使用。
Q5:生成的视频画面出现轻微失真该如何优化?
A:首先检查输入素材清晰度,优先使用高分辨率原始素材;其次切换联合模式,依靠三维几何锚点约束画面;本地部署用户可微调模型渲染参数,进一步提升画面保真度。
Q6:项目是否完全开源,能否用于商业项目?
A:项目官方演示站点已公开,源码及使用许可可查阅官方页面说明,学术研究场景可免费使用,商用场景需严格遵循项目开源协议。

八、相关链接
项目官方演示与主页地址:https://jointwm.github.io/
九、总结
Xiaomi Auto WorldModel 是小米针对自动驾驶行业痛点打造的一体化联合世界模型,整合快速三维场景重建、高效因果视频生成两大核心能力,通过独创的深度耦合架构解决了传统方案效率低、画面易漂移、几何与视觉脱节等问题。项目在重建速度、视频推理效率、长时序稳定性、场景适配性上均达到行业顶尖水准,不仅能够大幅降低自动驾驶仿真测试、训练数据制作的时间与人力成本,还可以有效缩小虚拟仿真环境和真实行车场景之间的差距,完整覆盖自动驾驶闭环测试、数据扩充、算法训练、场景复盘等核心业务场景。依托简洁的使用流程、优秀的兼容能力与开源开放的模式,该框架成为自动驾驶领域兼具实用性与创新性的底层技术方案,可为行业相关研发工作提供强有力的技术支撑。
版权及免责申明:本文由@AI工具箱原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/xiaomi-auto-worldmodel.html

