Xiaomi Auto WorldModel:小米推出的自动驾驶仿真与数据生成AI模型

原创 发布日期:
65

一、Xiaomi Auto WorldModel是什么?

Xiaomi Auto WorldModel(小米汽车自动驾驶联合世界模型)是小米面向自动驾驶领域打造的重建+生成深度耦合一体化世界模型框架,该框架创新性融合三维场景重建、时序视频生成两大核心能力,由 WorldRec、WorldGen、Joint World Model 三大模块协同构成,彻底解决传统自动驾驶仿真、数据生成方案中重建效率低、视频生成易漂移、几何与视觉效果割裂等行业痛点。

区别于传统“先独立重建3D场景、再单独生成视频”的松散组合模式,Xiaomi Auto WorldModel 实现了几何表征与视觉生成的深度绑定,既保障三维场景的真实几何精度,又实现长时序、多视角、复杂路况视频的高效生成,是面向自动驾驶仿真训练、数据扩充、端到端模型训练的全链路技术解决方案,目前在主流自动驾驶公开数据集上性能达到行业顶尖水平。

Xiaomi Auto WorldModel:小米推出的自动驾驶仿真与数据生成AI模型

二、核心功能特色

Xiaomi Auto WorldModel 围绕自动驾驶全流程使用需求,打造多维度核心能力,整体功能可分为三大板块,具备高效率、高保真、高稳定、强耦合四大核心优势:

  1. 极速三维场景重建

    • 摒弃传统3D高斯渲染数小时逐场景优化模式,实现10秒完成10秒时长视频对应的全场景三维重建,大幅降低场景处理耗时。

    • 有效消除重建过程中的重影、伪影、基元爆炸等常见问题,输出高真实度的3D高斯场景表征。

  2. 高效因果视频生成

    • 支持单视角、多视角自动驾驶画面生成,推理速度极快,单视角仅需0.19秒/帧,三视角0.46秒/帧。

    • 经过多阶段优化后将去噪步数压缩至4步,相比传统模型提速12倍,最长可稳定生成1分钟连续视频,长时序画面无明显抖动、畸变。

    • 兼容雨天、雾天、夜间、极端路况等长尾场景与特殊天气,覆盖自动驾驶全场景测试需求。

  3. 重建与生成联合协同

    • 以三维重建结果作为4D几何锚点,约束视频生成过程,从根源抑制长时序画面漂移、逻辑错乱问题。

    • 利用视频生成能力补全三维重建中未观测到的场景区域,做到几何结构与视觉画面高度统一。

    • 跨帧共享4D场景表征,保证多帧、多视角画面全局一致性,缩小虚拟仿真环境与真实行车环境的差距。

  4. 多场景通用适配

    • 原生适配 Waymo、nuScenes 等主流自动驾驶数据集,开箱即可完成模型验证与二次开发。

    • 支持自动驾驶闭环仿真、合成数据制作、端到端算法训练等多元化业务场景,扩展性强。

三、技术细节

本项目整体架构分为WorldRec(世界表征模块)、WorldGen(世界生成模块)、Joint World Model(联合耦合模块) 三层架构,各模块采用差异化技术路线,同时通过统一接口实现深度联动,以下分模块拆解核心技术原理、架构与优化方案。

3.1 WorldRec 快速3D场景重建模块

WorldRec 是整个框架的场景基础层,核心目标是快速输出高精度、轻量化的三维场景表征,替代传统低效的逐场景高斯优化方案。

  • 基础架构:采用稀疏场景查询驱动前馈架构,核心逻辑为稀疏 Token 特征聚合。模型会提取多视角、跨时间维度的图像特征,通过稀疏查询机制筛选有效特征信息,摒弃冗余数据,最终直接输出紧凑的3D高斯表征,全程无需迭代优化。

  • 技术亮点

    1. 多维度特征融合:整合同一时刻不同摄像头视角、同一视角不同时间帧的特征,保证三维空间结构完整。

    2. 前置防干扰设计:从算法层面规避重影、基元爆炸等3D重建经典缺陷,提升输出质量。

  • 实测性能
    在 Waymo、nuScenes 标准数据集下达到当前最优效果:Waymo 数据集 PSNR 达到28.48,SSIM 达到0.861,几何精度与画面保真度行业领先。

3.2 WorldGen 因果视频生成模块

WorldGen 负责基于场景表征生成连续行车视频,依托 DiT 架构打造,采用两阶段训练+三阶段微调的完整训练体系,兼顾生成质量与推理速度。

  • 基础架构:基于 DiT(Diffusion Transformer)搭建视频生成主干网络,天然适配长时序、多分辨率视频生成任务。

  • 训练流程

    • 阶段1:Teacher Forcing 因果约束,强制模型遵循行车时序,杜绝画面逻辑颠倒。

    • 阶段2:ODE 蒸馏优化,将传统数百步去噪压缩至4步,推理速度提升12倍。

    • 阶段3:DMD 分布对齐,缩小模型训练场景与实际推理场景的数据分布差异,提升泛化能力。

    1. 双向预训练:先使用海量公开视频数据完成双向基础预训练,让模型学习通用画面、运动逻辑、光影特征。

    2. 因果微调:分三阶段精细化调优,保障自动驾驶时序逻辑合理性:

  • 性能指标
    标准测试环境下,单视角视频推理 0.19s/帧,三视角 0.46s/帧;nuScenes 数据集下 FID=7.04、FVD=64.97,各项生成指标达到 SOTA(当前最优)水平。

3.3 Joint World Model 联合耦合模块

该模块是本项目的核心创新点,实现 WorldRec 与 WorldGen 的深度融合,打破传统模型“重建、生成相互独立”的壁垒。

  • 耦合逻辑

1. WorldRec 输出4D时空几何表征,作为全局几何锚点;
2. 几何锚点嵌入 WorldGen 生成流程,实时约束画面空间结构;
3. WorldGen 补充场景盲区视觉信息,反向优化三维表征细节;
4. 增量场景融合+自车投影渲染,实现双模块实时联动。
  • 核心技术优势

    • 误差抑制:依靠固定几何锚点,阻止长时序视频生成过程中的误差累积,画面全程稳定。

    • 全局一致:4D表征作为跨帧共享记忆,多帧、多视角画面空间位置、物体形态保持统一。

    • 虚实贴近:仿真画面高度还原真实车载传感器采集效果,降低仿真域到真实域的迁移难度。

Xiaomi Auto WorldModel:小米推出的自动驾驶仿真与数据生成AI模型

四、应用场景

Xiaomi Auto WorldModel 依托三维重建+视频生成的一体化能力,深度落地自动驾驶研发全流程,覆盖企业研发、算法训练、场景测试三大方向,具体应用场景如下:

  1. 自动驾驶闭环仿真测试
    搭建虚拟行车环境,模拟城市道路、高速路、复杂路口、恶劣天气等各类行车场景,替代部分实车路测,降低测试成本、提升测试安全性。可连续运行长时序仿真任务,稳定还原车辆行驶、障碍物移动、路况变化等动态过程。

  2. 自动驾驶合成数据制作
    自动驾驶算法训练依赖海量标注数据,真实数据采集成本高、稀有场景样本少。该模型可批量生成合规、高真实度的虚拟行车图像与视频,补充雨天、夜间、突发路况等长尾样本,扩充训练数据集。

  3. 端到端自动驾驶模型训练
    为端到端感知、决策、控制算法提供标准化虚拟训练数据与仿真环境,研发人员可基于本框架快速完成算法迭代、效果验证,缩短自动驾驶算法研发周期。

  4. 场景复现与问题复盘
    针对实车路测中出现的特殊工况、故障场景,通过三维重建还原现场环境,再利用视频生成复现完整行车过程,辅助技术人员定位问题、优化算法。

五、使用方法

本项目基于开源网页与模型仓库发布,整体部署、使用流程简洁,分为环境准备、模型调用、基础功能使用三个步骤,适配研发人员、算法工程师使用:

  1. 环境访问与前置准备

    • 直接访问官方演示地址:https://jointwm.github.io/,可在线体验基础重建、视频生成演示功能,无需本地部署。

    • 本地部署要求:配置主流深度学习环境,适配 PyTorch、OpenCV、3D Gaussian Splatting 相关依赖库,推荐 GPU 运行环境以保障推理速度。

  2. 基础功能在线使用

    1. 进入官方网页后,上传车载多视角视频/图像序列(支持主流视频格式、图片格式)。

    2. 选择功能模式:「仅3D重建」「仅视频生成」「联合重建+生成」三种模式。

    3. 点击执行,等待数秒即可获取三维场景文件、连续生成视频,支持在线预览、文件下载。

  3. 二次开发与模型调用

    • 开发者可拉取项目源码,基于现有模块接口进行二次开发,自定义场景参数、生成视角、视频时长。

    • 支持对接自研自动驾驶算法,将本模型作为数据生成、仿真底层模块嵌入自研系统。

Xiaomi Auto WorldModel:小米推出的自动驾驶仿真与数据生成AI模型

六、竞品对比

选取自动驾驶领域同类世界模型/3D重建+视频生成一体化框架共3款主流产品进行横向对比,从核心架构、重建效率、生成能力、耦合模式、适用场景五大维度分析差异,直观体现本项目竞争力。

对比维度 Xiaomi Auto WorldModel 传统分离式3D重建+视频生成框架 单一自动驾驶视频生成模型 通用开源3D高斯重建框架
核心架构 重建、生成深度耦合联合架构,三大模块协同工作 重建、生成两个独立模块,接口简单对接 仅视频生成网络,无原生三维几何模块 专注3D场景重建,无视频生成能力
重建效率 10秒完成10秒视频场景重建,前馈式无迭代 数小时逐场景迭代优化,效率极低 不具备三维重建能力 分钟级~小时级重建,依赖迭代优化
视频生成能力 4步去噪,极速推理,最长1分钟长时序稳定生成 去噪步数多、推理慢,长时序易漂移 生成速度中等,无几何约束,画面漂移明显 无视频生成功能
模块耦合性 强耦合,几何锚点约束生成,双向互补 弱耦合,两者互不干预,几何与视觉易脱节 无耦合设计 单一模块,无耦合概念
核心适用场景 自动驾驶仿真、数据合成、端到端训练全场景 简单场景数据制作,短期仿真任务 短视频素材生成,简单画面补充 静态三维场景建模、离线场景还原

对比总结:Xiaomi Auto WorldModel 最大优势在于一体化设计与综合性能,同时兼顾重建速度、生成质量与模块协同能力;传统分离式框架效率低下、体验割裂;纯视频生成模型缺少几何支撑,无法满足自动驾驶高精度仿真需求;通用3D重建框架功能单一,无法完成动态视频生成任务。在自动驾驶专业场景下,本项目综合优势显著。

七、常见问题解答

Q1:Xiaomi Auto WorldModel 主要面向哪些人群使用?

A:该项目主要面向自动驾驶算法工程师、仿真测试工程师、人工智能研发人员,同时也可供相关领域科研人员开展学术研究、模型对比实验,普通用户可通过官方网页体验基础演示功能。

Q2:本地运行该模型对硬件有什么要求?

A:推荐使用搭载高端独立显卡的设备运行,GPU 显存建议不低于16G,保障3D重建与视频生成的推理速度;仅在线演示功能无需高配置硬件,普通电脑、浏览器即可正常访问使用。

Q3:模型支持自定义视角、视频时长吗?

A:支持。在线演示端可设置基础视角与视频长度,本地部署并二次开发后,能够自由配置多摄像头视角、最长1分钟连续视频,满足个性化场景需求。

Q4:该模型可以处理真实路测采集的原始车载视频吗?

A:可以。模型原生适配 Waymo、nuScenes 等真实自动驾驶数据集,兼容主流车载摄像头拍摄的视频与图像数据,无需复杂预处理即可直接使用。

Q5:生成的视频画面出现轻微失真该如何优化?

A:首先检查输入素材清晰度,优先使用高分辨率原始素材;其次切换联合模式,依靠三维几何锚点约束画面;本地部署用户可微调模型渲染参数,进一步提升画面保真度。

Q6:项目是否完全开源,能否用于商业项目?

A:项目官方演示站点已公开,源码及使用许可可查阅官方页面说明,学术研究场景可免费使用,商用场景需严格遵循项目开源协议。

Xiaomi Auto WorldModel:小米推出的自动驾驶仿真与数据生成AI模型

八、相关链接

九、总结

Xiaomi Auto WorldModel 是小米针对自动驾驶行业痛点打造的一体化联合世界模型,整合快速三维场景重建、高效因果视频生成两大核心能力,通过独创的深度耦合架构解决了传统方案效率低、画面易漂移、几何与视觉脱节等问题。项目在重建速度、视频推理效率、长时序稳定性、场景适配性上均达到行业顶尖水准,不仅能够大幅降低自动驾驶仿真测试、训练数据制作的时间与人力成本,还可以有效缩小虚拟仿真环境和真实行车场景之间的差距,完整覆盖自动驾驶闭环测试、数据扩充、算法训练、场景复盘等核心业务场景。依托简洁的使用流程、优秀的兼容能力与开源开放的模式,该框架成为自动驾驶领域兼具实用性与创新性的底层技术方案,可为行业相关研发工作提供强有力的技术支撑。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新