FantasyWorld：高德地图联合北邮推出的几何一致型 3D 世界建模开源框架

原创发布日期：2026-01-13

149

一、FantasyWorld是什么

FantasyWorld是一款面向物理AI的开源3D世界建模框架，由高德地图与北京邮电大学联合研发并开源，核心定位是通过统一的视频生成与3D预测技术，构建高几何一致性的虚拟数字空间，将物理世界映射为连续、可计算、高度一致的数字化表达。

在人工智能向通用智能（AGI）发展的过程中，高质量的3D世界模型是实现具身智能、场景推理的核心基础，但传统视频生成模型虽具备强大的想象生成能力，却缺乏显式的3D空间感知能力，生成的视频内容容易出现“空间崩塌”“多视角失真”等问题；而传统3D建模方法（如NeRF、3DGS）又需要多视角图像采集、逐场景优化，存在效率低、成本高、难以规模化的痛点。FantasyWorld的出现正是为了弥补这一技术鸿沟，它并非简单将视频生成与3D建模技术拼接，而是通过几何增强的一体化框架，让视频生成过程受3D几何约束，同时让3D预测过程融入视频生成的先验知识，最终实现“从多模态输入到几何一致的视频+3D模型”的端到端生成。

从项目属性来看，FantasyWorld是学术与工业结合的开源项目：其技术方案已形成论文（arXiv编号2509.21657）并被ICLR 2025、NeurIPS 2025等人工智能顶会收录，具备扎实的理论基础；同时依托高德地图近10亿月活用户的真实出行轨迹、地理空间数据和城市动态场景完成训练，拥有极强的工业落地属性。

二、功能特色

FantasyWorld的核心价值在于“几何一致性”与“高效性”的结合，相较于传统视频生成与3D建模方案，其功能特色可总结为六大核心点，具体如下：

（一）几何一致性生成，解决空间失真痛点

这是FantasyWorld最核心的功能特色。框架通过联合建模视频潜变量与隐式3D场，为视频生成过程注入严格的3D几何约束，确保生成的场景在180度旋转、多视角切换等情况下，物体的形状、纹理、空间位置关系始终保持稳定，彻底解决了传统视频生成模型的“空间崩塌”问题。在国际权威评测基准WorldScore的光度一致性维度，FantasyWorld得分达93.58分，显著优于TeleWorld（88.82分）等同类模型，空间保真度处于行业领先水平。

（二）单次前向传播，实现高效建模推理

传统3D建模与视频生成需要分步骤完成，且往往需要多次迭代优化，耗时耗力。FantasyWorld采用预处理模块（PCBs）与集成重建生成模块（IRG）的组合设计，仅需一次前向计算，就能同时完成“相机条件化视频特征生成”与“显式3D表示推断”两大任务，无需额外的3D重建步骤或迭代记忆优化。这种设计让建模效率大幅提升，商家仅用手机拍摄几段短视频和照片，最快数小时内就能生成对应的3D实景模型，而传统方法则需要专业设备和人员工作数天。

（三）多模态输入支持，满足多样化创作需求

框架支持图像、文本、相机轨迹三种核心输入方式，用户可根据场景需求灵活选择，实现定制化3D场景生成：

文本输入：通过自然语言描述场景特征（如“一个带落地窗的北欧风格客厅，阳光从左侧照入”），框架即可生成对应的视频与3D模型；
图像输入：以单张或多张场景图片为基础，扩展生成完整的3D场景与动态视频；
相机轨迹输入：用户通过交互式规划相机运动轨迹，框架将沿指定轨迹生成连续的视频画面，并同步构建对应的3D空间结构。

（四）跨分支监督机制，提升模型泛化能力

FantasyWorld创新引入2D/3D跨分支监督机制，实现视频与3D信息的双向交互优化：一方面，几何分支的3D线索会指导视频生成过程，强制视频内容符合3D空间规律；另一方面，视频分支的生成先验知识会规范化3D预测结果，让3D模型更贴合真实视觉特征。这种双向约束不仅提升了单一场景的生成质量，还让模型具备更强的泛化能力，无需逐场景优化或微调，就能适配不同类型的场景建模需求。

（五）轻量化架构设计，降低部署使用门槛

框架采用“冻结骨干+轻量分支”的架构设计：以阿里云Wan2.1视频基础模型为骨干网络，并将其前16层冻结，仅在其基础上增设可训练的几何分支与轻量级交互模块。这种设计大幅减少了模型的训练与推理计算量，降低了对硬件资源的要求，支持在普通服务器甚至边缘设备上的实时应用，为规模化落地奠定了基础。

（六）事实化生成能力，保证内容真实性

与部分追求“自由创作”的AI生成模型不同，FantasyWorld定位为“事实AI”，严格依据用户提供的真实影像资料（如视频、照片）进行场景还原，而非无依据的虚构。在高德“飞行街景”功能的落地中，该特性确保了商家实景模型与真实环境的高度一致，让AI成为“空间的还原者”，而非“幻想的创造者”，这一特性也让其在政务、商业等对真实性要求高的场景中具备不可替代的价值。

为更直观地展示FantasyWorld与传统方案的差异，以下是核心功能对比表：

对比维度	FantasyWorld	传统视频生成模型	传统3D建模方法（NeRF/3DGS）
几何一致性	强（多视角无失真）	弱（易出现空间崩塌）	强（但需多视角数据）
建模效率	高（单次前向传播）	中（仅生成视频）	低（需逐场景迭代优化）
输入方式	多模态（文本/图像/相机轨迹）	单一（多为文本/图像）	单一（多为多视角图像）
硬件要求	低（轻量化分支设计）	中	高（需高性能算力）
内容真实性	事实化（基于真实数据还原）	虚构化（易产生幻觉）	事实化（但数据采集成本高）

FantasyWorld：高德地图联合北邮推出的几何一致型 3D 世界建模开源框架

三、技术细节

FantasyWorld的技术架构围绕“统一视频-3D建模”核心目标设计，整体分为网络架构与训练策略两大核心部分，技术细节通俗易懂，且具备明确的模块化设计，便于后续的代码开源与二次开发。

（一）整体网络架构

FantasyWorld的网络架构采用“预处理块+集成重建与生成块+3D DPT头”的三级结构，同时包含视频分支与几何分支两大核心分支，通过双向交叉注意力（MM-BiCrossAttn）实现分支间的信息交互。整体架构可理解为“以冻结的视频基础模型为基础，为其增加3D几何感知的‘眼睛’和‘大脑’，让视频生成过程具备3D空间理解能力”。具体模块功能如下：

预处理块（PCBs）
预处理块的核心作用是为几何分支提供“有意义的特征输入”。它直接重用冻结的Wan2.1视频基础模型的前16层，对输入的多模态数据（文本/图像/相机轨迹）进行初步的特征提取与去噪处理，输出部分去噪的视频潜在变量。这些变量既保留了视频生成所需的视觉特征，又能被几何分支识别和利用，实现了视频分支与几何分支的特征桥接。
集成重建与生成块（IRG）
这是框架的核心计算模块，采用不对称双分支结构，将“想象先验分支（视频分支）”与“几何一致分支（几何分支）”深度耦合：

想象先验分支：基于Wan2.1的后层网络，负责生成符合视觉审美与动态规律的视频特征，延续了基础模型强大的生成能力；
几何一致分支：是新增的可训练分支，负责从视频特征中提取3D几何信息，构建隐式3D场，并生成相机参数、深度信息等几何线索。
两个分支通过双向交叉注意力（MM-BiCrossAttn）进行信息交互：几何分支将3D线索传递给视频分支，修正视频特征的空间偏差；视频分支将生成先验传递给几何分支，让3D模型更贴合真实视觉效果。最终，该模块会逐步优化视频潜在变量与几何特征，输出兼具视觉效果与几何一致性的结果。

3D DPT头
为提升几何预测的准确性，FantasyWorld设计了专用的3D DPT头模块。该模块从集成重建与生成块的深层扩散层中提取高维特征，通过多层感知机（MLP）进行特征转换，最终输出相机参数、深度图、3D点云等显式的3D几何表示。与传统从RGB图像直接预测深度的方法不同，3D DPT头从深层特征中提取几何信息，避免了RGB图像噪声的干扰，预测结果更精准。

（二）核心训练策略

FantasyWorld采用两阶段训练策略，既保证了几何分支与视频骨干网络的兼容性，又实现了两大分支的协同优化，具体训练流程如下：

第一阶段：潜在变量桥接训练
这一阶段的核心目标是让几何分支“适应”视频骨干网络的特征空间，仅训练几何分支与3D DPT头，视频骨干网络（Wan2.1）全程冻结。训练数据采用标注好的3D几何信息（如深度图、相机参数）与对应的视频数据，通过监督学习让几何分支能够从视频骨干网络输出的潜在变量中，准确提取并预测3D几何特征。这一阶段的训练解决了“不同分支特征不兼容”的问题，为后续的联合优化奠定基础。
第二阶段：统一协同优化训练
在几何分支完成初步训练后，进入第二阶段的联合优化。这一阶段会引入轻量级交互模块（双向交叉注意力），同时对几何分支、交互模块与3D DPT头进行训练，视频骨干网络仍保持冻结。训练过程中，通过2D/3D跨分支监督机制构建损失函数：一方面计算视频生成结果与真实视频的视觉损失，另一方面计算3D几何预测结果与真实几何信息的几何损失，通过多任务损失联合优化，让视频生成与3D预测相互促进、协同提升。

（三）关键技术创新点

除了上述架构与训练策略，FantasyWorld还有三大关键技术创新，也是其性能领先的核心原因：

无需额外3D重建：传统方法需要先通过NeRF/3DGS完成3D重建，再基于3D模型生成视频，而FantasyWorld实现了“视频生成与3D建模同步完成”，省去了中间步骤；
可泛化的3D特征表示：几何分支输出的潜在变量可直接作为下游3D任务（如新视角合成、机器人导航）的输入，无需二次处理，大幅提升了模型的实用性；
动态特征优化：集成重建与生成块采用“逐步优化”的方式，对视频潜在变量与几何特征进行迭代修正，让生成结果的质量与一致性逐步提升。

四、应用场景

FantasyWorld凭借几何一致性、高效性、多模态输入等特性，具备广泛的工业落地与学术研究价值，目前已在高德地图的核心产品中得到应用，同时可覆盖多个领域的场景需求，具体应用场景如下：

（一）高德地图核心产品落地：飞行街景与AR实景

这是FantasyWorld最直接的工业应用场景。基于该框架，高德地图推出了全球首个“飞行街景”功能，用户在规划餐厅、景区等路线时，可从街道空中视角无缝“飞入”场景内部，连续查看沿途环境、停车位、店内陈设等细节。商家仅需用手机拍摄几段店内视频和门头照片，上传至平台后，FantasyWorld会自动生成对应的3D虚拟漫游街景，全程无需专业设备与人员参与。此外，高德还计划基于该框架上线“AR实景”功能，用户扫描街道或门店时，系统会在实景画面上叠加评分、推荐菜等信息，实现物理世界与数字信息的融合展示，该功能预计将在2026年一季度正式发布。

（二）AR/VR内容创作

AR/VR内容创作对3D场景的真实性与几何一致性要求极高，传统创作方式成本高、周期长。FantasyWorld可通过文本、图像等多模态输入，快速生成具备真实光照、纹理和物理运动规律的3D虚拟环境，创作者只需在此基础上进行简单的细节优化，即可完成AR/VR场景搭建。例如，VR游戏的场景制作、AR导航的虚拟路标生成、元宇宙展厅的搭建等，都可通过FantasyWorld大幅降低创作成本，提升生产效率。

（三）数字孪生建设

数字孪生是将物理世界的城市、建筑、工厂等实体映射为虚拟数字模型，实现实时监控、规划与管理。FantasyWorld可融合卫星影像、街景数据、传感器数据等多源信息，快速构建高精度的3D数字孪生模型，且模型具备几何一致性与动态更新能力。例如，城市规划部门可通过该框架构建城市数字孪生模型，模拟道路改造、建筑建设后的场景效果；工厂可利用其构建生产线数字孪生，实现设备运行状态的实时监控与故障预测。

（四）机器人导航与具身智能

机器人导航需要精准的3D环境感知与路径规划能力，FantasyWorld输出的3D几何特征与视频特征，可直接为机器人提供环境感知数据。机器人通过框架生成的3D模型，能够快速识别障碍物、规划最优路径；同时，框架的多视角生成能力，可让机器人模拟不同视角的环境状态，提升应对复杂场景的能力。此外，该框架还可为具身智能研究提供基础的3D世界模型，助力智能体实现更接近人类的环境理解与交互能力。

（五）游戏开发

游戏开发中，3D场景制作是耗时耗力的核心环节。FantasyWorld支持通过文本描述快速生成游戏场景的3D模型与动态视频，游戏开发者可根据剧情需求，输入“魔幻森林”“未来都市”等文本指令，框架即可生成对应的场景模型，还能通过相机轨迹输入，生成游戏中的镜头运动效果。这一特性可大幅缩短游戏场景的开发周期，降低开发成本，尤其适合独立游戏开发者与小型游戏工作室。

（六）文旅行业沉浸式体验

在文旅行业，FantasyWorld可用于构建景区、博物馆的3D虚拟漫游模型，实现“云游览”体验。例如，故宫博物院已基于该技术上线飞行街景功能，用户可远程沉浸式游览故宫的建筑与历史细节，身临其境地感受文化遗产的魅力。此外，景区还可通过该框架生成AR导览内容，游客扫描景点时，可在实景中叠加历史介绍、虚拟人物讲解等信息，提升游览体验。

FantasyWorld：高德地图联合北邮推出的几何一致型 3D 世界建模开源框架

五、常见问题解答（FAQ）

Q：FantasyWorld生成的3D模型精度如何？能否满足工业级建模需求？

A：FantasyWorld在WorldScore评测的静态场景理解维度得分为78.55分，相机控制维度75.55分，内容对齐维度87.75分，综合精度处于行业领先水平。对于商业展示、AR/VR内容创作等场景，生成的3D模型精度完全满足需求；对于工业制造、精密测绘等超高精度需求的场景，可通过微调模型与增加细节标注数据进一步提升精度。

Q：框架支持动态场景的建模吗？比如行驶的汽车、流动的河水。

A：支持。FantasyWorld的视频基础模型Wan2.1具备强大的动态特征捕捉能力，几何分支也能对动态物体的3D运动轨迹进行建模，可生成包含动态物体的视频与3D模型，如流动的河水、行驶的汽车、飘动的树叶等。

Q：多模态输入能否组合使用？比如同时输入文本与图像。

A：可以。框架支持多模态输入的组合使用，例如用户可输入一张场景图片，并搭配文本描述补充场景的动态特征与细节信息，框架会融合多模态输入的信息，生成更贴合需求的结果。

Q：框架是否支持Windows系统？还是仅支持Linux系统？

A：框架的核心推理功能支持Windows、Linux、macOS三大系统，但由于深度学习框架的兼容性问题，Linux系统的性能与稳定性更优，建议训练与大规模部署使用Linux系统，个人体验与小型推理可使用Windows或macOS系统。

Q：模型训练需要多少数据？普通用户能否自行训练？

A：官方预训练模型基于海量的地理空间数据、视频数据与3D几何数据训练而成，普通用户无需重新训练整个模型。框架提供了微调接口，用户可使用少量的自定义场景数据（如数十段视频与对应的3D标注），对几何分支进行微调，以适配特定场景的建模需求。

Q：生成的3D模型文件体积有多大？能否进行轻量化压缩？

A：普通场景的3D模型文件体积约为100-500MB，复杂场景（如城市街区）的模型文件体积可达数GB。框架内置了3D模型轻量化压缩模块，可通过简化模型三角面数量、压缩纹理贴图等方式，将模型文件体积压缩至原来的1/10-1/5，且不影响视觉效果。

Q：推理速度较慢，有哪些优化方法？

A：可通过三种方式优化推理速度：一是降低视频分辨率与帧率（如将分辨率调整为720×576，帧率调整为15帧/秒）；二是使用模型量化技术（如将模型权重从FP32转换为FP16），减少计算量；三是采用分布式推理，利用多块GPU并行计算。

Q：生成的结果出现几何失真，该如何解决？

A：几何失真主要是由于输入信息不足或场景过于复杂导致的。可通过以下方式解决：一是补充更详细的输入信息（如文本描述增加空间细节，图像输入增加多视角图片）；二是调整推理参数，增加模型的迭代优化次数；三是使用官方提供的后处理工具，对生成的3D模型进行几何修正。

六、相关链接

GitHub开源仓库：https://github.com/Fantasy-AMAP/fantasy-world
项目官方主页：https://fantasy-amap.github.io/fantasy-world/
论文链接（arXiv）：https://arxiv.org/abs/2509.21657
高德地图飞行街景功能介绍：https://amap.com/feature/flystreetview

七、总结

FantasyWorld是由高德地图与北京邮电大学联合研发并开源的几何增强型3D世界建模框架，核心通过统一的视频生成与3D预测技术，解决了传统视频生成模型空间一致性不足、3D建模效率低的行业痛点。该框架以冻结的Wan2.1视频基础模型为骨干，增设可训练的几何分支，创新引入2D/3D跨分支监督机制与两阶段训练策略，实现了视频潜在变量与隐式3D场的联合建模，仅需单次前向传播即可完成视频特征与3D表示的同步生成，在WorldScore评测中多项核心指标位列第一。其支持文本、图像、相机轨迹等多模态输入，具备几何一致性强、建模效率高、部署门槛低、内容真实性强等特性，已在高德地图飞行街景功能中实现工业落地，同时可广泛应用于AR/VR内容创作、数字孪生、机器人导航、游戏开发、文旅沉浸式体验等多个领域。目前该项目已在GitHub开源，虽暂未发布核心代码与模型权重，但官方已明确技术架构、使用流程与发布计划，为用户提前了解与准备使用提供了充足的信息，作为学术与工业结合的开源项目，FantasyWorld不仅为3D世界建模领域的研究提供了新的思路与方法，也为各类工业场景的数字化转型提供了高效、低成本的技术解决方案。

3D世界建模视频生成开源框架

打赏

版权及免责申明：本文由@AI工具集原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/fantasyworld.html

THE END

AI工具集

工具不孤岛，AI集大成——这里有你要的一切智能解法

+ 关注

FantasyWorld：高德地图联合北邮推出的几何一致型 3D 世界建模开源框架

文章目录

一、FantasyWorld是什么

二、功能特色

（一）几何一致性生成，解决空间失真痛点

（二）单次前向传播，实现高效建模推理

（三）多模态输入支持，满足多样化创作需求

（四）跨分支监督机制，提升模型泛化能力

（五）轻量化架构设计，降低部署使用门槛

（六）事实化生成能力，保证内容真实性

三、技术细节

（一）整体网络架构

（二）核心训练策略

（三）关键技术创新点

四、应用场景

（一）高德地图核心产品落地：飞行街景与AR实景

（二）AR/VR内容创作

（三）数字孪生建设

（四）机器人导航与具身智能

（五）游戏开发

（六）文旅行业沉浸式体验

五、常见问题解答（FAQ）

六、相关链接

七、总结

相关文章