Qwen-AgentWorld:通义千问推出的开源MoE架构智能体世界模拟模型

原创 发布日期:
61

一、Qwen-AgentWorld 是什么

Qwen-AgentWorld 是阿里通义千问团队开源发布的原生语言世界模型(Language World Model,简称LWM),同步配套自研评测基准 AgentWorldBench,全部模型权重、数据集、工程代码以 Apache 2.0 协议完全开源免费商用。

传统大模型仅能完成对话、工具调用,无法预判操作后的环境变化;而Qwen-AgentWorld核心定位是AI智能体专用环境模拟器,可以接收智能体执行动作,自主推演环境状态、输出真实可信的环境反馈,替代真实硬件/系统作为智能体训练、测试的虚拟训练场。

项目提供两款MoE混合专家模型:

  1. Qwen-AgentWorld-35B-A3B:总参35B,激活参数3B,256K上下文窗口,轻量化部署版本;

  2. Qwen-AgentWorld-397B-A17B:总参397B,激活参数17B,旗舰高性能版本,综合性能超越GPT-5.4、Claude Opus等闭源前沿模型。

Qwen-AgentWorld:通义千问推出的开源MoE架构智能体世界模拟模型

二、核心功能特色

1. 原生世界建模架构

区别于普通大模型后期微调适配环境的方案,环境状态预测从持续预训练(CPT)阶段就设为核心训练目标,完整经过「CPT环境知识注入→SFT下一状态推理激活→RL模拟保真度优化」三阶段训练,基于超1000万条真实智能体交互轨迹训练,时序一致性、环境逻辑还原度大幅领先通用大模型二次改造方案。

2. 单模型统一覆盖七大交互领域

一款模型同时兼容文本工具、图形界面两大类7类智能体交互场景,实现跨领域知识迁移:

  • 文本类:MCP协议、联网Search检索、Linux Terminal终端、SWE代码工程环境;

  • GUI图形类:Android手机系统、Web网页、OS操作系统桌面环境。

3. 可控可扩展虚拟模拟能力

  • 扰动可控:支持通过指令自定义环境变量、异常场景,主动暴露智能体能力短板;

  • 虚构世界构建:可生成完全自洽的虚构场景,模型在虚构环境训练后可迁移至真实任务;

  • 域外泛化:零适配支持未参与训练的陌生环境(如OpenClaw机械智能体),真实环境无法实现大规模域外场景扩容。

4. 通用智能体基座能力

基于世界建模强化学习预热的模型,推理、工具规划能力可无缝迁移至多轮工具调用任务,包含3类完全域外评测基准,在终端、代码、机械智能体等任务均有稳定性能提升。

5. 配套完整开源评测体系 AgentWorldBench

全球首个面向语言世界模型的标准化评测集,覆盖七大领域,采用5维量化打分标准(格式规范、事实准确性、时序一致性、场景真实度、综合质量,满分100分),提供全套推理、打分、分数聚合脚本,开发者可标准化自测模型模拟能力。

三、技术细节

1. 训练三阶段流水线

  1. CPT持续预训练:注入海量真实环境交互轨迹,让模型学习环境状态流转底层逻辑,环境建模为核心训练目标;

  2. SFT监督微调:对齐「动作→下一环境状态」预测任务,激活长链式环境推理能力;

  3. RL强化学习:基于模拟环境反馈做奖励优化,提升仿真保真度、时序连贯性。

2. 模型架构与规格

全系采用MoE混合专家架构,256K超长上下文窗口,支持长时序多轮交互推演;轻量化35B-A3B版本仅激活3B参数,降低推理算力门槛,旗舰397B-A17B版本兼顾全场景高精度模拟。

3. 评测打分逻辑(AgentWorldBench)

每条测试样本存储完整多轮交互轨迹、真实环境观测值;评测流程分为三步:

  1. 模型推理:输入动作,预测环境输出;

  2. LLM裁判打分:使用大模型从5个维度量化预测结果;

  3. 分数聚合:输出单领域、整体综合得分,自动生成标准化评测报告。

4. 推理底层支持

原生兼容vLLM、SGLang高性能推理框架,支持4卡张量并行,提供OpenAI标准兼容API;同时支持原生Transformers直接加载推理,适配单机小批量测试场景。

Qwen-AgentWorld:通义千问推出的开源MoE架构智能体世界模拟模型

四、应用场景

  1. AI智能体低成本训练训练场
    无需搭建真实服务器、手机、网页、代码环境,使用模型虚拟环境批量训练工具智能体,大幅降低硬件、运维成本;支持上万规模域外场景批量强化学习。

  2. 智能体缺陷自动化测试
    通过可控环境扰动注入异常场景,批量定位智能体在终端、网页、代码、手机操作中的逻辑漏洞,替代人工复现测试。

  3. 虚构场景智能体预训练
    构建现实不存在但逻辑自洽的虚拟世界,让智能体学习通用交互逻辑,提升真实场景零样本泛化效果,检索、工具调用任务涨幅显著。

  4. 多领域智能体研发底座
    面向代码智能体、操作系统运维机器人、移动端自动化Agent、检索助手、机械控制智能体提供统一仿真底座,一套模型覆盖全品类Agent开发。

  5. 学术LWM模型评测实验
    使用开源AgentWorldBench基准,标准化对比自研世界模型与主流大模型的环境模拟能力,提供可复现的量化实验流程。

五、使用方法

(一)模型部署推理

1. SGLang 高性能服务部署(支持OpenAI接口)

python -m sglang.launch_server \
  --model-path Qwen/Qwen-AgentWorld-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 4 \
  --context-length 262144 \
  --reasoning-parser qwen3

接口地址:http://localhost:8000/v1

2. vLLM 高吞吐部署

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 4 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --trust-remote-code

3. Transformers 本地单机推理示例

可直接模拟Linux终端、Android等环境,加载对应领域提示词即可完成动作-环境推演,仓库内置7大领域专用系统提示词模板。

(二)AgentWorldBench 评测流程

  1. 下载评测数据集:huggingface-cli download Qwen/AgentWorldBench --repo-type dataset

  2. 执行模型推理,生成预测结果;

  3. 调用LLM裁判脚本完成5维度打分;

  4. 运行分数聚合脚本输出各领域、整体得分报告。

(三)模型微调

支持Swift、Llama-Factory、UnSloth主流大模型微调框架,可基于行业专属环境交互数据做领域定制微调。

Qwen-AgentWorld:通义千问推出的开源MoE架构智能体世界模拟模型

六、竞品对比

选取行业主流闭源通用大模型GPT-5.4、Claude Opus 4.8、Gemini 3.1 Pro,与Qwen-AgentWorld-397B-A17B旗舰版做环境模拟能力横向对比:

对比维度 Qwen-AgentWorld-397B-A17B GPT-5.4 Claude Opus 4.8 Gemini 3.1 Pro
模型定位 原生语言世界模型,专为环境模拟训练 通用全能对话模型,无原生世界建模目标 长文档/代码通用模型,事后适配环境 多模态通用模型,模拟能力为附加功能
覆盖交互领域 7大统一领域(MCP/Search/Terminal/SWE/Android/Web/OS) 仅侧重搜索、代码、终端,无移动端/OS完整模拟 代码、文档能力强,移动端、操作系统模拟薄弱 网页、搜索较强,终端、机械环境泛化差
整体AgentWorldBench得分 58.71(行业第一) 58.25 56.59 54.57
可控虚拟环境构造 原生支持扰动注入、虚构世界生成 仅简单提示词模拟,无可控扰动能力 不支持自定义环境异常扰动 虚构场景一致性较差
上下文窗口 256K 128K 200K 1M(部分版本)
开源商用权限 Apache2.0,完全开源免费商用 闭源API付费,权重不开放 闭源API付费,权重不开放 闭源API付费,权重不开放
域外环境零样本泛化 优秀,支持OpenClaw等陌生场景 一般,陌生环境逻辑易断裂 较差,超出训练场景易逻辑失真 一般,GUI场景推演错误较多

七、常见问题解答(FAQ)

Q1:Qwen-AgentWorld 和普通Qwen3系列大模型有什么本质区别?

普通Qwen3系列是通用对话大模型,训练目标为问答、写作、基础工具调用;Qwen-AgentWorld是原生语言世界模型,从预训练阶段就以「预测环境状态变化」为核心目标,专门用于智能体环境仿真,在多轮交互、时序状态推演、虚拟场景构建上性能大幅领先通用千问模型,35B版本对比同尺寸Qwen3.5综合提升8.66分。

Q2:该模型是否可以完全替代真实服务器、手机、终端环境?

不能完全替代。真实环境是智能体上线部署的最终验证标准,Qwen-AgentWorld作为互补工具,优势是低成本、大规模、可控批量训练与测试;虚拟模拟适合前期预训练、缺陷批量排查、域外场景拓展,上线前仍需真实环境校验。

Q3:国内无法访问Hugging Face如何下载模型权重?

官方提供ModelScope镜像源,部署推理框架时设置环境变量即可切换国内源:vLLM使用VLLM_USE_MODELSCOPE=true,SGLang使用SGLANG_USE_MODELSCOPE=true,无需翻墙即可完整下载模型与评测数据集。

Q4:轻量35B-A3B版本和旗舰397B-A17B版本该如何选型?

小规模研发、本地测试、算力有限场景选择35B-A3B,4卡即可部署,推理成本更低;企业大规模智能体训练、高标准仿真、多域外场景实验、追求极致模拟精度场景,选择397B-A17B旗舰版本,综合性能超越主流闭源大模型。

Q5:AgentWorldBench评测数据集能否用于自研模型训练?

可以,数据集遵循Apache2.0开源协议,支持商用二次开发;数据集包含七大领域真实交互轨迹,既可作为评测基准,也可作为环境模拟类模型微调训练数据。

Q6:模型支持多模态图像输入吗?

当前版本为纯文本语言世界模型,仅基于文本推演环境状态;Android、Web界面场景通过文本描述还原界面元素,暂不支持图像输入,仅通过文字描述完成GUI交互预测。

Q7:普通开发者没有AI智能体开发需求,是否有使用价值?

有。可用于模拟Linux终端执行、批量测试代码命令输出、模拟网页交互检索、搭建虚拟操作系统实训环境,适合编程教学、运维模拟、检索算法测试等通用开发场景。

八、相关链接

  1. GitHub项目源码仓库:https://github.com/QwenLM/Qwen-AgentWorld

  2. HuggingFace模型权重仓库:https://huggingface.co/collections/Qwen/qwen-agentworld

  3. ModelScope模型下载地址:https://modelscope.cn/collections/Qwen/Qwen-AgentWorld

  4. 论文arXiv地址:http://arxiv.org/abs/2606.24597

  5. 官方技术博客:https://qwen.ai/blog?id=qwen-agentworld

九、总结

Qwen-AgentWorld是国内首个原生面向AI智能体的开源语言世界模型,依托三阶段专属训练流水线、七大领域统一仿真能力与配套标准化评测基准,解决了传统智能体研发中真实环境搭建成本高、场景规模受限、异常测试难以批量开展的痛点,两款MoE规格模型兼顾轻量化部署与旗舰级仿真性能,开源可商用的特性降低了智能体仿真技术的使用门槛,在公开基准中综合性能超越GPT、Claude、Gemini等主流闭源大模型,为代码智能体、移动端自动化、运维机器人、检索助手等各类AI Agent提供了统一、可扩展、可控的虚拟训练与测试底座。

打赏
THE END
作者头像
dotaai
正在和我的聊天机器人谈恋爱,它很会捧场。