Qwen-AgentWorld：通义千问推出的开源MoE架构智能体世界模拟模型

原创发布日期：2026-06-27

一、Qwen-AgentWorld 是什么

Qwen-AgentWorld 是阿里通义千问团队开源发布的原生语言世界模型（Language World Model，简称LWM），同步配套自研评测基准 AgentWorldBench，全部模型权重、数据集、工程代码以 Apache 2.0 协议完全开源免费商用。

传统大模型仅能完成对话、工具调用，无法预判操作后的环境变化；而Qwen-AgentWorld核心定位是AI智能体专用环境模拟器，可以接收智能体执行动作，自主推演环境状态、输出真实可信的环境反馈，替代真实硬件/系统作为智能体训练、测试的虚拟训练场。

项目提供两款MoE混合专家模型：

Qwen-AgentWorld-35B-A3B：总参35B，激活参数3B，256K上下文窗口，轻量化部署版本；
Qwen-AgentWorld-397B-A17B：总参397B，激活参数17B，旗舰高性能版本，综合性能超越GPT-5.4、Claude Opus等闭源前沿模型。

Qwen-AgentWorld：通义千问推出的开源MoE架构智能体世界模拟模型

二、核心功能特色

1. 原生世界建模架构

区别于普通大模型后期微调适配环境的方案，环境状态预测从持续预训练（CPT）阶段就设为核心训练目标，完整经过「CPT环境知识注入→SFT下一状态推理激活→RL模拟保真度优化」三阶段训练，基于超1000万条真实智能体交互轨迹训练，时序一致性、环境逻辑还原度大幅领先通用大模型二次改造方案。

2. 单模型统一覆盖七大交互领域

一款模型同时兼容文本工具、图形界面两大类7类智能体交互场景，实现跨领域知识迁移：

文本类：MCP协议、联网Search检索、Linux Terminal终端、SWE代码工程环境；
GUI图形类：Android手机系统、Web网页、OS操作系统桌面环境。

3. 可控可扩展虚拟模拟能力

扰动可控：支持通过指令自定义环境变量、异常场景，主动暴露智能体能力短板；
虚构世界构建：可生成完全自洽的虚构场景，模型在虚构环境训练后可迁移至真实任务；
域外泛化：零适配支持未参与训练的陌生环境（如OpenClaw机械智能体），真实环境无法实现大规模域外场景扩容。

4. 通用智能体基座能力

基于世界建模强化学习预热的模型，推理、工具规划能力可无缝迁移至多轮工具调用任务，包含3类完全域外评测基准，在终端、代码、机械智能体等任务均有稳定性能提升。

5. 配套完整开源评测体系 AgentWorldBench

全球首个面向语言世界模型的标准化评测集，覆盖七大领域，采用5维量化打分标准（格式规范、事实准确性、时序一致性、场景真实度、综合质量，满分100分），提供全套推理、打分、分数聚合脚本，开发者可标准化自测模型模拟能力。

三、技术细节

1. 训练三阶段流水线

CPT持续预训练：注入海量真实环境交互轨迹，让模型学习环境状态流转底层逻辑，环境建模为核心训练目标；
SFT监督微调：对齐「动作→下一环境状态」预测任务，激活长链式环境推理能力；
RL强化学习：基于模拟环境反馈做奖励优化，提升仿真保真度、时序连贯性。

2. 模型架构与规格

全系采用MoE混合专家架构，256K超长上下文窗口，支持长时序多轮交互推演；轻量化35B-A3B版本仅激活3B参数，降低推理算力门槛，旗舰397B-A17B版本兼顾全场景高精度模拟。

3. 评测打分逻辑（AgentWorldBench）

每条测试样本存储完整多轮交互轨迹、真实环境观测值；评测流程分为三步：

模型推理：输入动作，预测环境输出；
LLM裁判打分：使用大模型从5个维度量化预测结果；
分数聚合：输出单领域、整体综合得分，自动生成标准化评测报告。

4. 推理底层支持

原生兼容vLLM、SGLang高性能推理框架，支持4卡张量并行，提供OpenAI标准兼容API；同时支持原生Transformers直接加载推理，适配单机小批量测试场景。

Qwen-AgentWorld：通义千问推出的开源MoE架构智能体世界模拟模型

四、应用场景

AI智能体低成本训练训练场
无需搭建真实服务器、手机、网页、代码环境，使用模型虚拟环境批量训练工具智能体，大幅降低硬件、运维成本；支持上万规模域外场景批量强化学习。
智能体缺陷自动化测试
通过可控环境扰动注入异常场景，批量定位智能体在终端、网页、代码、手机操作中的逻辑漏洞，替代人工复现测试。
虚构场景智能体预训练
构建现实不存在但逻辑自洽的虚拟世界，让智能体学习通用交互逻辑，提升真实场景零样本泛化效果，检索、工具调用任务涨幅显著。
多领域智能体研发底座
面向代码智能体、操作系统运维机器人、移动端自动化Agent、检索助手、机械控制智能体提供统一仿真底座，一套模型覆盖全品类Agent开发。
学术LWM模型评测实验
使用开源AgentWorldBench基准，标准化对比自研世界模型与主流大模型的环境模拟能力，提供可复现的量化实验流程。

五、使用方法

（一）模型部署推理

1. SGLang 高性能服务部署（支持OpenAI接口）

python -m sglang.launch_server \
  --model-path Qwen/Qwen-AgentWorld-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 4 \
  --context-length 262144 \
  --reasoning-parser qwen3

接口地址：http://localhost:8000/v1

2. vLLM 高吞吐部署

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 4 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --trust-remote-code

3. Transformers 本地单机推理示例

可直接模拟Linux终端、Android等环境，加载对应领域提示词即可完成动作-环境推演，仓库内置7大领域专用系统提示词模板。

（二）AgentWorldBench 评测流程

下载评测数据集：huggingface-cli download Qwen/AgentWorldBench --repo-type dataset
执行模型推理，生成预测结果；
调用LLM裁判脚本完成5维度打分；
运行分数聚合脚本输出各领域、整体得分报告。

（三）模型微调

支持Swift、Llama-Factory、UnSloth主流大模型微调框架，可基于行业专属环境交互数据做领域定制微调。

Qwen-AgentWorld：通义千问推出的开源MoE架构智能体世界模拟模型

六、竞品对比

选取行业主流闭源通用大模型GPT-5.4、Claude Opus 4.8、Gemini 3.1 Pro，与Qwen-AgentWorld-397B-A17B旗舰版做环境模拟能力横向对比：

对比维度	Qwen-AgentWorld-397B-A17B	GPT-5.4	Claude Opus 4.8	Gemini 3.1 Pro
模型定位	原生语言世界模型，专为环境模拟训练	通用全能对话模型，无原生世界建模目标	长文档/代码通用模型，事后适配环境	多模态通用模型，模拟能力为附加功能
覆盖交互领域	7大统一领域（MCP/Search/Terminal/SWE/Android/Web/OS）	仅侧重搜索、代码、终端，无移动端/OS完整模拟	代码、文档能力强，移动端、操作系统模拟薄弱	网页、搜索较强，终端、机械环境泛化差
整体AgentWorldBench得分	58.71（行业第一）	58.25	56.59	54.57
可控虚拟环境构造	原生支持扰动注入、虚构世界生成	仅简单提示词模拟，无可控扰动能力	不支持自定义环境异常扰动	虚构场景一致性较差
上下文窗口	256K	128K	200K	1M（部分版本）
开源商用权限	Apache2.0，完全开源免费商用	闭源API付费，权重不开放	闭源API付费，权重不开放	闭源API付费，权重不开放
域外环境零样本泛化	优秀，支持OpenClaw等陌生场景	一般，陌生环境逻辑易断裂	较差，超出训练场景易逻辑失真	一般，GUI场景推演错误较多

七、常见问题解答（FAQ）

Q1：Qwen-AgentWorld 和普通Qwen3系列大模型有什么本质区别？

普通Qwen3系列是通用对话大模型，训练目标为问答、写作、基础工具调用；Qwen-AgentWorld是原生语言世界模型，从预训练阶段就以「预测环境状态变化」为核心目标，专门用于智能体环境仿真，在多轮交互、时序状态推演、虚拟场景构建上性能大幅领先通用千问模型，35B版本对比同尺寸Qwen3.5综合提升8.66分。

Q2：该模型是否可以完全替代真实服务器、手机、终端环境？

不能完全替代。真实环境是智能体上线部署的最终验证标准，Qwen-AgentWorld作为互补工具，优势是低成本、大规模、可控批量训练与测试；虚拟模拟适合前期预训练、缺陷批量排查、域外场景拓展，上线前仍需真实环境校验。

Q3：国内无法访问Hugging Face如何下载模型权重？

官方提供ModelScope镜像源，部署推理框架时设置环境变量即可切换国内源：vLLM使用VLLM_USE_MODELSCOPE=true，SGLang使用SGLANG_USE_MODELSCOPE=true，无需翻墙即可完整下载模型与评测数据集。

Q4：轻量35B-A3B版本和旗舰397B-A17B版本该如何选型？

小规模研发、本地测试、算力有限场景选择35B-A3B，4卡即可部署，推理成本更低；企业大规模智能体训练、高标准仿真、多域外场景实验、追求极致模拟精度场景，选择397B-A17B旗舰版本，综合性能超越主流闭源大模型。

Q5：AgentWorldBench评测数据集能否用于自研模型训练？

可以，数据集遵循Apache2.0开源协议，支持商用二次开发；数据集包含七大领域真实交互轨迹，既可作为评测基准，也可作为环境模拟类模型微调训练数据。

Q6：模型支持多模态图像输入吗？

当前版本为纯文本语言世界模型，仅基于文本推演环境状态；Android、Web界面场景通过文本描述还原界面元素，暂不支持图像输入，仅通过文字描述完成GUI交互预测。

Q7：普通开发者没有AI智能体开发需求，是否有使用价值？

有。可用于模拟Linux终端执行、批量测试代码命令输出、模拟网页交互检索、搭建虚拟操作系统实训环境，适合编程教学、运维模拟、检索算法测试等通用开发场景。

八、相关链接

GitHub项目源码仓库：https://github.com/QwenLM/Qwen-AgentWorld
HuggingFace模型权重仓库：https://huggingface.co/collections/Qwen/qwen-agentworld
ModelScope模型下载地址：https://modelscope.cn/collections/Qwen/Qwen-AgentWorld
论文arXiv地址：http://arxiv.org/abs/2606.24597
官方技术博客：https://qwen.ai/blog?id=qwen-agentworld

九、总结

Qwen-AgentWorld是国内首个原生面向AI智能体的开源语言世界模型，依托三阶段专属训练流水线、七大领域统一仿真能力与配套标准化评测基准，解决了传统智能体研发中真实环境搭建成本高、场景规模受限、异常测试难以批量开展的痛点，两款MoE规格模型兼顾轻量化部署与旗舰级仿真性能，开源可商用的特性降低了智能体仿真技术的使用门槛，在公开基准中综合性能超越GPT、Claude、Gemini等主流闭源大模型，为代码智能体、移动端自动化、运维机器人、检索助手等各类AI Agent提供了统一、可扩展、可控的虚拟训练与测试底座。

语言世界模型 AI智能体 Agent模拟器开源大模型

打赏

版权及免责申明：本文由@dotaai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/qwen-agentworld.html

THE END

dotaai

正在和我的聊天机器人谈恋爱，它很会捧场。

+ 关注

Qwen-AgentWorld：通义千问推出的开源MoE架构智能体世界模拟模型

文章目录

一、Qwen-AgentWorld 是什么

二、核心功能特色

1. 原生世界建模架构

2. 单模型统一覆盖七大交互领域

3. 可控可扩展虚拟模拟能力

4. 通用智能体基座能力

5. 配套完整开源评测体系 AgentWorldBench

三、技术细节

1. 训练三阶段流水线

2. 模型架构与规格

3. 评测打分逻辑（AgentWorldBench）

4. 推理底层支持

四、应用场景

五、使用方法

（一）模型部署推理

1. SGLang 高性能服务部署（支持OpenAI接口）

2. vLLM 高吞吐部署

3. Transformers 本地单机推理示例

（二）AgentWorldBench 评测流程

（三）模型微调

六、竞品对比

七、常见问题解答（FAQ）

八、相关链接

九、总结

相关文章