Solaris:Minecraft多人世界模型,支持TPU/GPU训练推理与VLM一致性评估
一、Solaris 是什么
Solaris 是全球第一个面向 Minecraft 的多人视频世界模型,由纽约大学 Xie Saining 团队(DiT 模型作者)主导研发,以 JAX 为核心框架开源发布。它的核心目标是:在开放沙盒环境中,模拟并生成多个玩家同时行动、视角统一、逻辑一致、长期稳定的虚拟世界视频,让 AI 真正理解“多人如何一起玩、一起建、一起互动”。
与传统单玩家世界模型不同,Solaris 从设计之初就面向多智能体协同:支持多人同步视角、同步动作、同步场景变化,解决了多人场景中最关键的“一致性”难题——不同玩家看到的世界必须一样、动作必须合理、建造结果必须统一。
该项目包含三大核心部分:
基于 JAX 的模型训练与推理代码
支持 GCP TPU 大规模训练、GPU 快速推理
VLM-as-a-judge 多人自一致性评估指标源码
Solaris 不仅是一个模型,更是一套完整的多人世界模型研发工具链,覆盖数据、训练、推理、评估全流程,是游戏 AI、多智能体、虚拟世界研究领域的里程碑式开源项目。
二、功能特色
Solaris 围绕“多人一致性”与“高性能训练推理”构建核心能力,具备四大突出特色:
1. 真正的多人世界建模,支持多视角统一生成
Solaris 是业内首个能输出多玩家视角完全一致的世界模型。它通过专门设计的多人自注意力机制与同步数据结构,保证多个玩家在移动、建造、交互时,世界状态、视觉画面、逻辑结果完全统一,不会出现“你看到的方块和我不一样”这类传统模型的致命问题。
2. TPU/GPU 异构硬件深度优化
训练:原生支持 GCP TPU 大规模分布式训练,适合长序列、大数据集的模型收敛
推理:支持单卡/多卡 GPU 推理,普通科研与开发设备即可运行
架构:基于 JAX + XLA 编译,计算图高度优化,速度与显存效率显著优于同类 PyTorch 实现
3. 全流程工具链,开箱即用
项目提供一站式能力:
数据集处理:支持大规模 Minecraft 多人视频帧加载
模型训练:分阶段训练 pipeline,从单玩家渐进到多玩家
视频推理:输出高清晰度、长时序多人游戏视频
自动评估:内置 VLM 评估与 FID 指标,无需额外开发
4. 科研级评估体系,效果可量化
Solaris 提出专门针对多人世界的评估框架,覆盖:
移动一致性
视角对齐
记忆保持
建造结果一致性
长期逻辑稳定性
并提供 VLM-as-a-judge 自动化评分,让模型效果不再依赖人工主观判断。

三、技术细节
1. 核心技术栈
| 组件 | 技术选型 |
|---|---|
| 核心框架 | JAX + Flax |
| 训练加速 | XLA 编译、GCP TPU |
| 推理支持 | NVIDIA GPU(CUDA) |
| 数据格式 | ArrayRecords、Grain 加载 |
| 评估模块 | VLM-as-a-judge、FID |
| 开源协议 | Apache-2.0 |
2. 多人世界模型架构
Solaris 使用分阶段训练 pipeline:
单玩家世界建模
双向视角学习
因果时序学习
多玩家一致性学习(Checkpointed Self Forcing)
最后一步是项目核心创新:Checkpointed Self Forcing,在节省显存的同时,支持更长时序的教师强制学习,保证多人长时间交互不崩溃、不漂移。
3. 多人数据系统
项目配套采集了 1264 万帧多人 Minecraft 视频数据,是目前规模最大、质量最高的开源多人游戏数据集之一,具备:
多玩家同步录制
动作-视频严格对齐
大规模自动化采集
可直接用于训练与评估
4. 推理与评估技术
推理:固定单设备 batch size=1,保证显存安全,支持多 GPU 并行
评估:
FID:衡量生成画面与真实画面相似度
VLM 评估:大模型自动判断多人场景一致性、逻辑性、合理性
四、应用场景
游戏 AI 研发
为 Minecraft 等沙盒游戏开发高真实感的多人 NPC、智能队友、AI 观察者。多智能体研究
研究协作、竞争、通信、规划等多智能体核心问题,提供标准化环境与模型。虚拟世界生成
自动生成大型多人游戏地图、剧情视频、宣传片、虚拟活动场景。AI 教学与科研
作为世界模型、视频生成、多智能体方向的教学基线项目,代码清晰、注释完整。Mod 开发者工具
为 Minecraft 模组提供程序化世界生成、NPC AI、多人交互逻辑支持。
五、使用方法
1. 环境配置(Conda)
conda env create -f environment.yml conda activate solaris
2. GPU 推理依赖
pip install -r requirements_gpu.txt pip install -e .
3. TPU 训练依赖
pip install -r requirements_tpu.txt pip install -e .
4. 下载模型权重
hf download nyu-visionx/solaris --local-dir ./pretrained
5. 运行推理
执行项目提供的推理脚本,生成的视频默认保存到 ./output/ 目录,日志自动输出 FID 分数。
6. 运行 VLM 多人一致性评估
进入 vlm_eval/ 目录,执行官方提供的评估脚本,自动输出一致性得分、视角对齐分数等。

六、常见问题解答
Q1:Solaris 只能用于 Minecraft 吗?
A1:目前项目官方实现与数据均针对 Minecraft 优化,是最稳定的使用场景。但其架构是通用的多人世界模型框架,经过适配可用于其他沙盒类游戏或虚拟环境。
Q2:GPU 推理最低要求是什么?
A2:官方建议至少 48GB 显存的 GPU;单卡 batch size 固定为 1,多卡可并行提升速度。
Q3:训练必须用 TPU 吗?
A3:是的,官方训练代码仅支持 GCP TPU(如 v5p),因为多人世界模型需要极高算力与显存。
Q4:VLM 评估是什么意思?
A4:VLM-as-a-judge 即用视觉语言模型自动判断生成的多人视频是否合理、视角是否一致、动作是否自然,是科研级量化指标。
Q5:可以用自己的 Minecraft 数据训练吗?
A5:可以,但需要按照项目规定的数据格式进行预处理,包括同步视频、动作、玩家状态等。
Q6:项目支持 Windows 系统吗?
A6:支持,但 TPU 训练必须在 GCP 环境中;GPU 推理可在 Windows WSL2 或原生 Linux 环境运行。
Q7:推理时出现显存不足怎么办?
A7:确保关闭其他占用 GPU 的程序;使用官方默认配置(batch size=1);或使用多卡推理。
Q8:Solaris 和其他世界模型(如 MineDojo、VPT)有什么区别?
A8:它们大多面向单玩家;Solaris 是第一个专注多人一致性的世界模型,核心解决多玩家同步问题。
七、相关链接
GitHub 主项目:https://github.com/solaris-wm/solaris
Hugging Face 模型:https://huggingface.co/nyu-visionx/solaris
Hugging Face 数据集:https://huggingface.co/datasets/nyu-visionx/solaris-eval-datasets
八、总结
Solaris 作为全球首个面向 Minecraft 的多人视频世界模型,以 JAX 为底层框架、TPU/GPU 为算力支撑、VLM 自一致性为评估核心,构建了一套完整的多智能体虚拟世界建模工具链,解决了长期困扰学界与工业界的多人视角不一致、逻辑不稳定、长时序崩溃等问题,其开源代码、数据集与评估体系为游戏 AI、多智能体学习、虚拟世界生成等领域提供了标准化基线与高效开发平台,是近年来世界模型方向极具代表性的开源成果。
版权及免责申明:本文由@人工智能研究所原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/solaris.html

