Solaris:Minecraft多人世界模型,支持TPU/GPU训练推理与VLM一致性评估

原创 发布日期:
60

一、Solaris 是什么

Solaris全球第一个面向 Minecraft 的多人视频世界模型,由纽约大学 Xie Saining 团队(DiT 模型作者)主导研发,以 JAX 为核心框架开源发布。它的核心目标是:在开放沙盒环境中,模拟并生成多个玩家同时行动、视角统一、逻辑一致、长期稳定的虚拟世界视频,让 AI 真正理解“多人如何一起玩、一起建、一起互动”。

与传统单玩家世界模型不同,Solaris 从设计之初就面向多智能体协同:支持多人同步视角、同步动作、同步场景变化,解决了多人场景中最关键的“一致性”难题——不同玩家看到的世界必须一样、动作必须合理、建造结果必须统一。

该项目包含三大核心部分:

  1. 基于 JAX 的模型训练与推理代码

  2. 支持 GCP TPU 大规模训练、GPU 快速推理

  3. VLM-as-a-judge 多人自一致性评估指标源码

Solaris 不仅是一个模型,更是一套完整的多人世界模型研发工具链,覆盖数据、训练、推理、评估全流程,是游戏 AI、多智能体、虚拟世界研究领域的里程碑式开源项目。

二、功能特色

Solaris 围绕“多人一致性”与“高性能训练推理”构建核心能力,具备四大突出特色:

1. 真正的多人世界建模,支持多视角统一生成

Solaris 是业内首个能输出多玩家视角完全一致的世界模型。它通过专门设计的多人自注意力机制与同步数据结构,保证多个玩家在移动、建造、交互时,世界状态、视觉画面、逻辑结果完全统一,不会出现“你看到的方块和我不一样”这类传统模型的致命问题。

2. TPU/GPU 异构硬件深度优化

  • 训练:原生支持 GCP TPU 大规模分布式训练,适合长序列、大数据集的模型收敛

  • 推理:支持单卡/多卡 GPU 推理,普通科研与开发设备即可运行

  • 架构:基于 JAX + XLA 编译,计算图高度优化,速度与显存效率显著优于同类 PyTorch 实现

3. 全流程工具链,开箱即用

项目提供一站式能力:

  • 数据集处理:支持大规模 Minecraft 多人视频帧加载

  • 模型训练:分阶段训练 pipeline,从单玩家渐进到多玩家

  • 视频推理:输出高清晰度、长时序多人游戏视频

  • 自动评估:内置 VLM 评估与 FID 指标,无需额外开发

4. 科研级评估体系,效果可量化

Solaris 提出专门针对多人世界的评估框架,覆盖:

  • 移动一致性

  • 视角对齐

  • 记忆保持

  • 建造结果一致性

  • 长期逻辑稳定性

并提供 VLM-as-a-judge 自动化评分,让模型效果不再依赖人工主观判断。

Solaris:Minecraft多人世界模型,支持TPU/GPU训练推理与VLM一致性评估

三、技术细节

1. 核心技术栈

组件 技术选型
核心框架 JAX + Flax
训练加速 XLA 编译、GCP TPU
推理支持 NVIDIA GPU(CUDA)
数据格式 ArrayRecords、Grain 加载
评估模块 VLM-as-a-judge、FID
开源协议 Apache-2.0

2. 多人世界模型架构

Solaris 使用分阶段训练 pipeline

  1. 单玩家世界建模

  2. 双向视角学习

  3. 因果时序学习

  4. 多玩家一致性学习(Checkpointed Self Forcing)

最后一步是项目核心创新:Checkpointed Self Forcing,在节省显存的同时,支持更长时序的教师强制学习,保证多人长时间交互不崩溃、不漂移。

3. 多人数据系统

项目配套采集了 1264 万帧多人 Minecraft 视频数据,是目前规模最大、质量最高的开源多人游戏数据集之一,具备:

  • 多玩家同步录制

  • 动作-视频严格对齐

  • 大规模自动化采集

  • 可直接用于训练与评估

4. 推理与评估技术

  • 推理:固定单设备 batch size=1,保证显存安全,支持多 GPU 并行

  • 评估:

    • FID:衡量生成画面与真实画面相似度

    • VLM 评估:大模型自动判断多人场景一致性、逻辑性、合理性

四、应用场景

  1. 游戏 AI 研发
    为 Minecraft 等沙盒游戏开发高真实感的多人 NPC、智能队友、AI 观察者。

  2. 多智能体研究
    研究协作、竞争、通信、规划等多智能体核心问题,提供标准化环境与模型。

  3. 虚拟世界生成
    自动生成大型多人游戏地图、剧情视频、宣传片、虚拟活动场景。

  4. AI 教学与科研
    作为世界模型、视频生成、多智能体方向的教学基线项目,代码清晰、注释完整。

  5. Mod 开发者工具
    为 Minecraft 模组提供程序化世界生成、NPC AI、多人交互逻辑支持。

五、使用方法

1. 环境配置(Conda)

conda env create -f environment.yml
conda activate solaris

2. GPU 推理依赖

pip install -r requirements_gpu.txt
pip install -e .

3. TPU 训练依赖

pip install -r requirements_tpu.txt
pip install -e .

4. 下载模型权重

hf download nyu-visionx/solaris --local-dir ./pretrained

5. 运行推理

执行项目提供的推理脚本,生成的视频默认保存到 ./output/ 目录,日志自动输出 FID 分数。

6. 运行 VLM 多人一致性评估

进入 vlm_eval/ 目录,执行官方提供的评估脚本,自动输出一致性得分、视角对齐分数等。

Solaris:Minecraft多人世界模型,支持TPU/GPU训练推理与VLM一致性评估

六、常见问题解答

Q1:Solaris 只能用于 Minecraft 吗?

A1:目前项目官方实现与数据均针对 Minecraft 优化,是最稳定的使用场景。但其架构是通用的多人世界模型框架,经过适配可用于其他沙盒类游戏或虚拟环境。

Q2:GPU 推理最低要求是什么?

A2:官方建议至少 48GB 显存的 GPU;单卡 batch size 固定为 1,多卡可并行提升速度。

Q3:训练必须用 TPU 吗?

A3:是的,官方训练代码仅支持 GCP TPU(如 v5p),因为多人世界模型需要极高算力与显存。

Q4:VLM 评估是什么意思?

A4:VLM-as-a-judge 即用视觉语言模型自动判断生成的多人视频是否合理、视角是否一致、动作是否自然,是科研级量化指标。

Q5:可以用自己的 Minecraft 数据训练吗?

A5:可以,但需要按照项目规定的数据格式进行预处理,包括同步视频、动作、玩家状态等。

Q6:项目支持 Windows 系统吗?

A6:支持,但 TPU 训练必须在 GCP 环境中;GPU 推理可在 Windows WSL2 或原生 Linux 环境运行。

Q7:推理时出现显存不足怎么办?

A7:确保关闭其他占用 GPU 的程序;使用官方默认配置(batch size=1);或使用多卡推理。

Q8:Solaris 和其他世界模型(如 MineDojo、VPT)有什么区别?

A8:它们大多面向单玩家;Solaris 是第一个专注多人一致性的世界模型,核心解决多玩家同步问题。

七、相关链接

八、总结

Solaris 作为全球首个面向 Minecraft 的多人视频世界模型,以 JAX 为底层框架、TPU/GPU 为算力支撑、VLM 自一致性为评估核心,构建了一套完整的多智能体虚拟世界建模工具链,解决了长期困扰学界与工业界的多人视角不一致、逻辑不稳定、长时序崩溃等问题,其开源代码、数据集与评估体系为游戏 AI、多智能体学习、虚拟世界生成等领域提供了标准化基线与高效开发平台,是近年来世界模型方向极具代表性的开源成果。

打赏
THE END
作者头像
人工智能研究所
发现AI神器,探索AI技术!