Qwen3.7-Plus：通义千问推出的多模态智能体大模型，全链路自动化编程与GUI视觉操控

AI新闻 AI工具箱 1个月前

136

一、Qwen3.7-Plus是什么

Qwen3.7-Plus是由阿里达摩院通义千问团队自研、依托Qwen3.7原生基座迭代升级的多模态通用智能体大模型，归属通义Qwen大模型产品矩阵，主打视觉+文本+代码三位一体的自主智能体闭环能力，区别于常规通用大模型仅做内容生成的产品定位，Qwen3.7-Plus从底层架构重构多模态感知链路，实现「视觉观察-逻辑思考-代码编写-工具执行-结果校验」全链路自主运行，是通义系列面向工程落地、自动化办公、软件开发领域的中端旗舰级商用大模型，全量能力上架阿里云百炼平台对外开放标准化API调用，同时兼容OpenAI接口协议、主流智能体开发框架。

从产品层级划分来看，通义Qwen产品线分为轻量化小参数量模型、标准版基座模型、Plus增强智能体模型、Max旗舰超大模型四大梯队，Qwen3.7-Plus定位介于标准版3.7基座与Qwen3 Max旗舰之间，在3.7B参数基础上通过蒸馏优化、多模态对齐微调、智能体RLHF强化训练，补齐原生基座在视觉理解、长时序任务规划、工程化代码落地三大短板，兼顾轻量化部署成本与旗舰级任务处理效果，兼顾云端API调用、本地私有化部署两种使用形态，面向企业开发者、独立程序员、自动化产品研发人员三类核心用户群体。

二、功能特色

2.1 全链路多模态智能体闭环能力

支持图片、截图、短视频、界面画面四类视觉输入，可自主识别GUI图形界面、系统弹窗、网页按钮、移动端控件，依托视觉信息拆解分步任务，自动调用代码、终端指令、浏览器工具完成操作，形成看-思-编-行-验标准化智能体工作流；
内置长周期任务规划引擎，单轮任务可持续不间断运行11小时以上，无上下文遗忘、任务跑偏问题，打破传统大模型单次对话短任务限制。

2.2 全栈级代码生成与工程落地能力

覆盖前端、后端、移动端、脚本、运维Shell全品类代码生成，从产品需求文档直接生成完整可运行项目源码，附带接口文档、测试用例、部署配置文件；
在权威编码评测基准中，Terminal-Bench2.0得分70.3、SWE-bench多语言得分75.8，可解决真实开源仓库BUG、重构老旧项目代码，支持NL2Repo自然语言一键生成完整代码仓库。

2.3 多维度视觉深度推理能力

屏幕UI专项识别：ScreenSpot Pro评测79.0分、AndroidWorld评测81.0分，精准定位电脑桌面、安卓APP内各类控件坐标，支撑软件自动化点击、表单填写；
数理视觉推理：MathVision、HiPhO空间几何推理、物理场景识图解题，可解析试卷图片、几何图纸、工程制图并输出分步解题代码；
动态视频时序理解：VideoMMMU85.4分，解析分段视频内容、时序逻辑，完成视频内容总结、画面异常点识别。

2.4 全框架智能体生态兼容

原生适配Claude Code、OpenClaw、Qwen Code三类市面主流智能体开发框架，无需修改底层提示词与调用逻辑，原有基于其他框架开发的智能体项目可直接替换模型参数完成迁移，降低开发者改造成本。

2.5 增强型通用文本推理

通用数理、逻辑推理对标高端大模型水准，GPQA Diamond 90.3、HMMT2026 92.9、IMOAnswerBench86.0，在奥数、生物化学、物理等高难度学科问答场景性能大幅超越同参数竞品，长文本摘要、文档解析、行业知识库问答优化。

2.6 检索增强多模态问答

内置多模态RAG检索引擎，图文混合输入场景下自动调取联网公开数据、用户私有知识库，SimpleVQA81.7、WorldVQA61.1，解决图片+自然问题结合的开放性问答需求，规避模型幻觉问题。

Qwen3.7-Plus：通义千问推出的多模态智能体大模型，全链路自动化编程与GUI视觉操控

三、技术细节

3.1 模型基础参数与训练架构

基座底层：基于Qwen3.7原生文本基座模型，在原有3.7B基础参数之上，采用多模态参数冻结微调+增量参数蒸馏技术，新增独立视觉编码器Transformer子模块，视觉与文本采用跨模态交叉注意力（Cross-Attention）融合层，不改动原有文本主干权重，保障原有文本能力不衰减。

# 简易架构层级伪代码示意
BaseModel = Qwen3.7-Text-Base(3.7B)
VisionEncoder = ViT-Large-CrossAttn(增量参数)
CrossFusionLayer = MultimodalFusion()
PlusModel = BaseModel + VisionEncoder + CrossFusionLayer

训练数据集：训练数据由三部分组成，千亿级通用文本语料、千万级图文配对训练集、百万级真实智能体执行轨迹数据集（GUI操作日志、代码调试日志、终端运行日志），依托达摩院自研数据清洗框架完成数据降噪与质量分级。

3.2 智能体专项优化技术

强化学习RL-Agent训练：采用多轮任务反馈式RLHF，以终端运行结果、代码运行报错信息、UI操作成功与否作为奖励信号，持续优化模型任务拆分逻辑，解决传统大模型多步骤任务连贯性差的痛点；
任务分层拆解算法：内置动态任务拆分算子，复杂需求自动拆分子任务队列，记录每一步执行状态，出错自动回滚上一节点重新生成方案，实现自主纠错。

3.3 多模态对齐技术

采用模态统一嵌入空间算法，图片像素特征、视频时序特征、文本Token特征映射至同一向量空间，消除图文语义割裂问题；针对屏幕截图专项优化像素特征提取逻辑，优化UI小控件、小字按钮的特征识别精度。

3.4 部署架构设计

云端版本：采用阿里云弹性算力集群部署，KV缓存动态调度技术，高并发场景自动扩容算力资源，API单接口QPS上限支持万级并发；
私有化版本：支持FP16/INT4/INT8三种量化格式，INT4量化后可在消费级高端显卡本地部署运行，兼顾推理速度与模型精度。

3.5 接口底层协议规范

全量接口遵循OpenAI兼容接口标准，同时额外拓展通义自研多模态入参字段，核心新增参数：
enable_thinking:bool：开启深度思考推理模式，强化复杂任务逻辑；
preserve_thinking:bool：保留模型思考过程返回内容，便于开发者调试智能体链路。

四、应用场景

采用有序列表划分六大落地场景，覆盖个人、中小企业、互联网大厂不同使用需求

全流程软件自动化开发场景
产品经理输入自然语言产品需求，Qwen3.7-Plus自动完成需求拆解、前后端代码编写、数据库设计、接口调试、项目打包部署，完整复刻桌面客户端、移动端APP，官方实测可完整复刻macOS原生股票行情软件，包含UI界面、实时行情数据接口、涨跌计算逻辑全功能，中小开发团队可依托模型缩减70%以上基础编码人力成本。
电脑&移动端GUI自动化运维场景
通过屏幕截图输入，模型识别软件界面控件，自动完成表单批量填写、网页数据爬取、后台系统批量配置、云服务器选购与环境部署，替代传统RPA工具需要编写固定规则脚本的弊端，非技术人员仅凭自然语言即可搭建自动化工作流。
理工科教育与科研场景
上传试卷照片、几何工程图纸、物理实验原理图，模型识图完成题目解析、分步演算、代码仿真实验结果，高校理工科教学、科研数据测算、毕业设计辅助开发，适用于中小学奥数辅导、大学理工科课题研发。
企业文档&多模态知识库问答场景
企业上传合同、PDF技术手册、产品实拍图、设备结构图，接入私有RAG知识库后，员工通过图文提问快速调取对应资料内容，实现生产设备故障识图答疑、商务合同条款智能解读，落地制造业、法务、生产型企业内部知识库落地。
运维&服务器自动化管控场景
对接服务器SSH终端，自然语言下达运维指令，模型自动生成Shell脚本执行服务器扩容、漏洞修复、环境配置、日志排查，依托Terminal专项优化能力处理复杂运维疑难问题，降低运维人员脚本编写门槛。
短视频&动态画面解析场景
上传短视频素材，模型解析视频时序内容、画面信息，自动生成视频文案、镜头总结、内容标签，用于短视频自媒体内容生产、安防监控异常画面智能识别。

五、使用方法

5.1 云端API接入（主流商用方案）

前置准备：登录阿里云百炼Model Studio平台，完成企业/个人实名认证，创建API调用密钥（AK/SK）；
接口调用：使用OpenAI标准请求格式，入参支持messages文本内容+image_url图片链接/视频资源链接，新增enable_thinking参数控制深度推理开关；

# Python简易调用示例
from openai import OpenAI

client = OpenAI(
  base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
  api_key="你的阿里云百炼AK密钥"
)

res = client.chat.completions.create(
  model="qwen3.7-plus",
  messages=[
    {"role":"user","content":[
      {"type":"text","text":"根据截图编写爬虫代码，抓取页面全部表格数据"},
      {"type":"image_url","image_url":{"url":"图片在线地址"}}
    ]}
  ],
  extra_body={"enable_thinking":True}
)
print(res.choices[0].message.content)

计费规则：按照输入token+输出token阶梯计费，图文输入单独核算视觉token，阿里云新用户赠送免费试用额度。

5.2 本地私有化部署方案

硬件需求：INT4量化版本最低24G显存显卡，FP16原版推荐40G以上显存A100/A800显卡；
部署路径：从通义官方开源仓库下载模型权重文件，使用Transformers/VLLM推理框架加载权重，启动本地OpenAI兼容接口服务，本地私有化数据不出内网，满足政企数据安全管控需求。

5.3 智能体框架快速集成

在Claude Code、OpenClaw项目配置文件中替换原有模型名称为qwen3.7-plus，填入阿里云API地址与密钥，原有智能体工作流无需改动业务代码即可一键切换模型。

Qwen3.7-Plus-Score

六、竞品对比

选取GPT-4o Mini、Claude 3.5 Haiku两款市面同档位多模态智能体模型，从参数规格、核心优势、短板、定价、智能体能力五大维度制作对比表格：

对比项目	Qwen3.7-Plus	GPT-4o Mini	Claude3.5 Haiku
产品归属	阿里达摩院通义千问	OpenAI	Anthropic
参数规格	3.7B优化增强版	小参数量蒸馏版	中等参数基座微调版
代码&终端智能体	⭐⭐⭐⭐⭐ 专项优化SWE/Terminal评测高分，支持GUI自动化、全栈工程开发	⭐⭐⭐ 通用代码尚可，终端脚本落地稳定性一般，无原生屏幕UI识别	⭐⭐⭐⭐ 长文本代码优秀，缺少屏幕视觉操控能力
多模态能力	⭐⭐⭐⭐⭐ 图片、截图、短视频全兼容，屏幕识别专项优化	⭐⭐⭐⭐ 通用图文优秀，界面控件识别精度偏弱	⭐⭐⭐ 仅静态图片解析，不支持短视频时序推理
接口兼容	OpenAI全兼容+阿里自研扩展字段	原生OpenAI协议	自有Claude协议，兼容改造成本高
部署形态	云端API+本地私有化量化部署	仅云端API，无官方开源权重	仅云端商用接口，不支持本地部署
定价优势	国内人民币计价，阶梯单价更低，新用户免费额度充足	美元结算，跨境调用延迟高、成本偏高	境外计费，国内落地对接链路繁琐

对比总结

在国内本地化落地、GUI自动化、运维终端、私有化部署场景Qwen3.7-Plus具备明确性价比优势；GPT-4o Mini通用图文综合均衡但自动化智能体短板明显；Claude3.5 Haiku擅长超长文本处理，但多模态与本地部署能力受限。

七、常见问题解答

Q1：Qwen3.7-Plus和原生Qwen3.7标准版模型核心区别是什么？

A1：原生Qwen3.7标准版侧重通用文本问答，无专项多模态编码器与智能体RL训练；Qwen3.7-Plus新增独立视觉模块，经过百万级智能体轨迹强化训练，强化代码落地、GUI识图、长周期任务执行能力，整体工程落地能力远超标准版3.7基座，文本基础能力与标准版持平。

Q2：Qwen3.7-Plus是否支持免费试用，试用额度如何领取？

A2：阿里云百炼平台新注册实名认证用户自动赠送免费调用token额度，额度耗尽后按照阶梯计价付费；无永久免费版本，私有化本地部署需要自行采购硬件与商用授权。

Q3：模型调用返回结果出现代码运行报错、任务执行失败是什么原因？

A3：优先开启enable_thinking=True深度推理参数，强化模型逻辑推演；其次核对输入图片清晰度，模糊截图会降低UI识别精度；复杂超长任务建议拆分为多轮分步提问，避免单次任务负载超限。

Q4：能否将Qwen3.7-Plus接入企业私有知识库做私有化RAG？

A4：完全支持，本地私有化部署版本可对接企业内网向量数据库（Milvus、FAISS等），云端API版本通过接口对接第三方RAG框架，数据全部留存企业自有存储，模型不缓存企业私密资料。

Q5：Qwen3.7-Plus支持哪些格式的视觉文件输入？

A5：图片支持PNG、JPG、WEBP、BMP常规格式，短视频支持MP4通用封装格式，不支持加密视频、特殊编码小众视频格式，视频单次上传建议时长控制在3分钟以内。

Q6：本地INT4量化后模型性能衰减幅度大吗？

A6：官方优化量化算法，INT4量化后文本推理衰减≤5%，多模态视觉能力衰减≤8%，日常自动化、编码场景无明显感知，极致高精度科研场景推荐FP16原版权重部署。

Q7：接口调用出现网络延迟过高如何处理？

A7：国内用户优先选用阿里云华东、华北就近接入节点，境外业务可选阿里云国际版百炼接口；私有化本地部署无公网延迟问题，适合高并发实时业务。

八、相关链接

产品首发官方博客：https://qwen.ai/blog?id=qwen3.7-plus
阿里云百炼Qwen3.7-Plus在线调用地址：https://dashscope.aliyun.com/
通义Qwen开源项目Github主页：https://github.com/QwenLM/Qwen

九、总结

Qwen3.7-Plus作为通义千问3.7系列的增强智能体旗舰产品，依托阿里达摩院成熟的大模型训练技术与阿里云算力生态，补齐了同参数模型在多模态智能体落地、工程化代码开发、GUI视觉自动化领域的行业短板，产品兼顾云端商用API轻量化接入与本地私有化安全部署两种落地模式，在性价比、本土化适配、国产生态兼容层面对比海外同档位多模态模型拥有突出落地优势，产品覆盖软件开发、企业自动化、教育培训、运维管控等多元化落地场景，依托全框架兼容特性快速融入现有AI智能体开发生态，是国内中端参数大模型向实用化智能体落地的代表性产品，能够切实降低各行各业智能化改造、自动化项目开发的人力与技术门槛。

通义千问多模态大模型 AI智能体国产大模型

打赏

版权及免责申明：本文由@AI工具箱原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/qwen3-7-plus.html

THE END

AI工具箱

一个喜欢收集AI工具的小萌新

+ 关注

Qwen3.7-Plus：通义千问推出的多模态智能体大模型，全链路自动化编程与GUI视觉操控

文章目录

一、Qwen3.7-Plus是什么

二、功能特色

2.1 全链路多模态智能体闭环能力

2.2 全栈级代码生成与工程落地能力

2.3 多维度视觉深度推理能力

2.4 全框架智能体生态兼容

2.5 增强型通用文本推理

2.6 检索增强多模态问答

三、技术细节

3.1 模型基础参数与训练架构

3.2 智能体专项优化技术

3.3 多模态对齐技术

3.4 部署架构设计

3.5 接口底层协议规范

四、应用场景

五、使用方法

5.1 云端API接入（主流商用方案）

5.2 本地私有化部署方案

5.3 智能体框架快速集成

六、竞品对比

对比总结

七、常见问题解答

八、相关链接

九、总结

相关文章