Qwen-AgentWorld:通义千问推出的开源MoE架构智能体世界模拟模型
一、Qwen-AgentWorld 是什么
Qwen-AgentWorld 是阿里通义千问团队开源发布的原生语言世界模型(Language World Model,简称LWM),同步配套自研评测基准 AgentWorldBench,全部模型权重、数据集、工程代码以 Apache 2.0 协议完全开源免费商用。
传统大模型仅能完成对话、工具调用,无法预判操作后的环境变化;而Qwen-AgentWorld核心定位是AI智能体专用环境模拟器,可以接收智能体执行动作,自主推演环境状态、输出真实可信的环境反馈,替代真实硬件/系统作为智能体训练、测试的虚拟训练场。
项目提供两款MoE混合专家模型:
Qwen-AgentWorld-35B-A3B:总参35B,激活参数3B,256K上下文窗口,轻量化部署版本;
Qwen-AgentWorld-397B-A17B:总参397B,激活参数17B,旗舰高性能版本,综合性能超越GPT-5.4、Claude Opus等闭源前沿模型。

二、核心功能特色
1. 原生世界建模架构
区别于普通大模型后期微调适配环境的方案,环境状态预测从持续预训练(CPT)阶段就设为核心训练目标,完整经过「CPT环境知识注入→SFT下一状态推理激活→RL模拟保真度优化」三阶段训练,基于超1000万条真实智能体交互轨迹训练,时序一致性、环境逻辑还原度大幅领先通用大模型二次改造方案。
2. 单模型统一覆盖七大交互领域
一款模型同时兼容文本工具、图形界面两大类7类智能体交互场景,实现跨领域知识迁移:
文本类:MCP协议、联网Search检索、Linux Terminal终端、SWE代码工程环境;
GUI图形类:Android手机系统、Web网页、OS操作系统桌面环境。
3. 可控可扩展虚拟模拟能力
扰动可控:支持通过指令自定义环境变量、异常场景,主动暴露智能体能力短板;
虚构世界构建:可生成完全自洽的虚构场景,模型在虚构环境训练后可迁移至真实任务;
域外泛化:零适配支持未参与训练的陌生环境(如OpenClaw机械智能体),真实环境无法实现大规模域外场景扩容。
4. 通用智能体基座能力
基于世界建模强化学习预热的模型,推理、工具规划能力可无缝迁移至多轮工具调用任务,包含3类完全域外评测基准,在终端、代码、机械智能体等任务均有稳定性能提升。
5. 配套完整开源评测体系 AgentWorldBench
全球首个面向语言世界模型的标准化评测集,覆盖七大领域,采用5维量化打分标准(格式规范、事实准确性、时序一致性、场景真实度、综合质量,满分100分),提供全套推理、打分、分数聚合脚本,开发者可标准化自测模型模拟能力。
三、技术细节
1. 训练三阶段流水线
CPT持续预训练:注入海量真实环境交互轨迹,让模型学习环境状态流转底层逻辑,环境建模为核心训练目标;
SFT监督微调:对齐「动作→下一环境状态」预测任务,激活长链式环境推理能力;
RL强化学习:基于模拟环境反馈做奖励优化,提升仿真保真度、时序连贯性。
2. 模型架构与规格
全系采用MoE混合专家架构,256K超长上下文窗口,支持长时序多轮交互推演;轻量化35B-A3B版本仅激活3B参数,降低推理算力门槛,旗舰397B-A17B版本兼顾全场景高精度模拟。
3. 评测打分逻辑(AgentWorldBench)
每条测试样本存储完整多轮交互轨迹、真实环境观测值;评测流程分为三步:
模型推理:输入动作,预测环境输出;
LLM裁判打分:使用大模型从5个维度量化预测结果;
分数聚合:输出单领域、整体综合得分,自动生成标准化评测报告。
4. 推理底层支持
原生兼容vLLM、SGLang高性能推理框架,支持4卡张量并行,提供OpenAI标准兼容API;同时支持原生Transformers直接加载推理,适配单机小批量测试场景。

四、应用场景
AI智能体低成本训练训练场
无需搭建真实服务器、手机、网页、代码环境,使用模型虚拟环境批量训练工具智能体,大幅降低硬件、运维成本;支持上万规模域外场景批量强化学习。智能体缺陷自动化测试
通过可控环境扰动注入异常场景,批量定位智能体在终端、网页、代码、手机操作中的逻辑漏洞,替代人工复现测试。虚构场景智能体预训练
构建现实不存在但逻辑自洽的虚拟世界,让智能体学习通用交互逻辑,提升真实场景零样本泛化效果,检索、工具调用任务涨幅显著。多领域智能体研发底座
面向代码智能体、操作系统运维机器人、移动端自动化Agent、检索助手、机械控制智能体提供统一仿真底座,一套模型覆盖全品类Agent开发。学术LWM模型评测实验
使用开源AgentWorldBench基准,标准化对比自研世界模型与主流大模型的环境模拟能力,提供可复现的量化实验流程。
五、使用方法
(一)模型部署推理
1. SGLang 高性能服务部署(支持OpenAI接口)
python -m sglang.launch_server \ --model-path Qwen/Qwen-AgentWorld-35B-A3B \ --port 8000 \ --tensor-parallel-size 4 \ --context-length 262144 \ --reasoning-parser qwen3
接口地址:http://localhost:8000/v1
2. vLLM 高吞吐部署
vllm serve Qwen/Qwen-AgentWorld-35B-A3B \ --port 8000 \ --tensor-parallel-size 4 \ --max-model-len 262144 \ --reasoning-parser qwen3 \ --trust-remote-code
3. Transformers 本地单机推理示例
可直接模拟Linux终端、Android等环境,加载对应领域提示词即可完成动作-环境推演,仓库内置7大领域专用系统提示词模板。
(二)AgentWorldBench 评测流程
下载评测数据集:
huggingface-cli download Qwen/AgentWorldBench --repo-type dataset执行模型推理,生成预测结果;
调用LLM裁判脚本完成5维度打分;
运行分数聚合脚本输出各领域、整体得分报告。
(三)模型微调
支持Swift、Llama-Factory、UnSloth主流大模型微调框架,可基于行业专属环境交互数据做领域定制微调。

六、竞品对比
选取行业主流闭源通用大模型GPT-5.4、Claude Opus 4.8、Gemini 3.1 Pro,与Qwen-AgentWorld-397B-A17B旗舰版做环境模拟能力横向对比:
| 对比维度 | Qwen-AgentWorld-397B-A17B | GPT-5.4 | Claude Opus 4.8 | Gemini 3.1 Pro |
|---|---|---|---|---|
| 模型定位 | 原生语言世界模型,专为环境模拟训练 | 通用全能对话模型,无原生世界建模目标 | 长文档/代码通用模型,事后适配环境 | 多模态通用模型,模拟能力为附加功能 |
| 覆盖交互领域 | 7大统一领域(MCP/Search/Terminal/SWE/Android/Web/OS) | 仅侧重搜索、代码、终端,无移动端/OS完整模拟 | 代码、文档能力强,移动端、操作系统模拟薄弱 | 网页、搜索较强,终端、机械环境泛化差 |
| 整体AgentWorldBench得分 | 58.71(行业第一) | 58.25 | 56.59 | 54.57 |
| 可控虚拟环境构造 | 原生支持扰动注入、虚构世界生成 | 仅简单提示词模拟,无可控扰动能力 | 不支持自定义环境异常扰动 | 虚构场景一致性较差 |
| 上下文窗口 | 256K | 128K | 200K | 1M(部分版本) |
| 开源商用权限 | Apache2.0,完全开源免费商用 | 闭源API付费,权重不开放 | 闭源API付费,权重不开放 | 闭源API付费,权重不开放 |
| 域外环境零样本泛化 | 优秀,支持OpenClaw等陌生场景 | 一般,陌生环境逻辑易断裂 | 较差,超出训练场景易逻辑失真 | 一般,GUI场景推演错误较多 |
七、常见问题解答(FAQ)
Q1:Qwen-AgentWorld 和普通Qwen3系列大模型有什么本质区别?
普通Qwen3系列是通用对话大模型,训练目标为问答、写作、基础工具调用;Qwen-AgentWorld是原生语言世界模型,从预训练阶段就以「预测环境状态变化」为核心目标,专门用于智能体环境仿真,在多轮交互、时序状态推演、虚拟场景构建上性能大幅领先通用千问模型,35B版本对比同尺寸Qwen3.5综合提升8.66分。
Q2:该模型是否可以完全替代真实服务器、手机、终端环境?
不能完全替代。真实环境是智能体上线部署的最终验证标准,Qwen-AgentWorld作为互补工具,优势是低成本、大规模、可控批量训练与测试;虚拟模拟适合前期预训练、缺陷批量排查、域外场景拓展,上线前仍需真实环境校验。
Q3:国内无法访问Hugging Face如何下载模型权重?
官方提供ModelScope镜像源,部署推理框架时设置环境变量即可切换国内源:vLLM使用VLLM_USE_MODELSCOPE=true,SGLang使用SGLANG_USE_MODELSCOPE=true,无需翻墙即可完整下载模型与评测数据集。
Q4:轻量35B-A3B版本和旗舰397B-A17B版本该如何选型?
小规模研发、本地测试、算力有限场景选择35B-A3B,4卡即可部署,推理成本更低;企业大规模智能体训练、高标准仿真、多域外场景实验、追求极致模拟精度场景,选择397B-A17B旗舰版本,综合性能超越主流闭源大模型。
Q5:AgentWorldBench评测数据集能否用于自研模型训练?
可以,数据集遵循Apache2.0开源协议,支持商用二次开发;数据集包含七大领域真实交互轨迹,既可作为评测基准,也可作为环境模拟类模型微调训练数据。
Q6:模型支持多模态图像输入吗?
当前版本为纯文本语言世界模型,仅基于文本推演环境状态;Android、Web界面场景通过文本描述还原界面元素,暂不支持图像输入,仅通过文字描述完成GUI交互预测。
Q7:普通开发者没有AI智能体开发需求,是否有使用价值?
有。可用于模拟Linux终端执行、批量测试代码命令输出、模拟网页交互检索、搭建虚拟操作系统实训环境,适合编程教学、运维模拟、检索算法测试等通用开发场景。
八、相关链接
GitHub项目源码仓库:https://github.com/QwenLM/Qwen-AgentWorld
HuggingFace模型权重仓库:https://huggingface.co/collections/Qwen/qwen-agentworld
ModelScope模型下载地址:https://modelscope.cn/collections/Qwen/Qwen-AgentWorld
论文arXiv地址:http://arxiv.org/abs/2606.24597
官方技术博客:https://qwen.ai/blog?id=qwen-agentworld
九、总结
Qwen-AgentWorld是国内首个原生面向AI智能体的开源语言世界模型,依托三阶段专属训练流水线、七大领域统一仿真能力与配套标准化评测基准,解决了传统智能体研发中真实环境搭建成本高、场景规模受限、异常测试难以批量开展的痛点,两款MoE规格模型兼顾轻量化部署与旗舰级仿真性能,开源可商用的特性降低了智能体仿真技术的使用门槛,在公开基准中综合性能超越GPT、Claude、Gemini等主流闭源大模型,为代码智能体、移动端自动化、运维机器人、检索助手等各类AI Agent提供了统一、可扩展、可控的虚拟训练与测试底座。
版权及免责申明:本文由@dotaai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/qwen-agentworld.html

