Qwen3.7-Plus:通义千问推出的多模态智能体大模型,全链路自动化编程与GUI视觉操控
一、Qwen3.7-Plus是什么
Qwen3.7-Plus是由阿里达摩院通义千问团队自研、依托Qwen3.7原生基座迭代升级的多模态通用智能体大模型,归属通义Qwen大模型产品矩阵,主打视觉+文本+代码三位一体的自主智能体闭环能力,区别于常规通用大模型仅做内容生成的产品定位,Qwen3.7-Plus从底层架构重构多模态感知链路,实现「视觉观察-逻辑思考-代码编写-工具执行-结果校验」全链路自主运行,是通义系列面向工程落地、自动化办公、软件开发领域的中端旗舰级商用大模型,全量能力上架阿里云百炼平台对外开放标准化API调用,同时兼容OpenAI接口协议、主流智能体开发框架。
从产品层级划分来看,通义Qwen产品线分为轻量化小参数量模型、标准版基座模型、Plus增强智能体模型、Max旗舰超大模型四大梯队,Qwen3.7-Plus定位介于标准版3.7基座与Qwen3 Max旗舰之间,在3.7B参数基础上通过蒸馏优化、多模态对齐微调、智能体RLHF强化训练,补齐原生基座在视觉理解、长时序任务规划、工程化代码落地三大短板,兼顾轻量化部署成本与旗舰级任务处理效果,兼顾云端API调用、本地私有化部署两种使用形态,面向企业开发者、独立程序员、自动化产品研发人员三类核心用户群体。
二、功能特色
2.1 全链路多模态智能体闭环能力
支持图片、截图、短视频、界面画面四类视觉输入,可自主识别GUI图形界面、系统弹窗、网页按钮、移动端控件,依托视觉信息拆解分步任务,自动调用代码、终端指令、浏览器工具完成操作,形成看-思-编-行-验标准化智能体工作流;
内置长周期任务规划引擎,单轮任务可持续不间断运行11小时以上,无上下文遗忘、任务跑偏问题,打破传统大模型单次对话短任务限制。
2.2 全栈级代码生成与工程落地能力
覆盖前端、后端、移动端、脚本、运维Shell全品类代码生成,从产品需求文档直接生成完整可运行项目源码,附带接口文档、测试用例、部署配置文件;
在权威编码评测基准中,Terminal-Bench2.0得分70.3、SWE-bench多语言得分75.8,可解决真实开源仓库BUG、重构老旧项目代码,支持NL2Repo自然语言一键生成完整代码仓库。
2.3 多维度视觉深度推理能力
屏幕UI专项识别:ScreenSpot Pro评测79.0分、AndroidWorld评测81.0分,精准定位电脑桌面、安卓APP内各类控件坐标,支撑软件自动化点击、表单填写;
数理视觉推理:MathVision、HiPhO空间几何推理、物理场景识图解题,可解析试卷图片、几何图纸、工程制图并输出分步解题代码;
动态视频时序理解:VideoMMMU85.4分,解析分段视频内容、时序逻辑,完成视频内容总结、画面异常点识别。
2.4 全框架智能体生态兼容
原生适配Claude Code、OpenClaw、Qwen Code三类市面主流智能体开发框架,无需修改底层提示词与调用逻辑,原有基于其他框架开发的智能体项目可直接替换模型参数完成迁移,降低开发者改造成本。
2.5 增强型通用文本推理
通用数理、逻辑推理对标高端大模型水准,GPQA Diamond 90.3、HMMT2026 92.9、IMOAnswerBench86.0,在奥数、生物化学、物理等高难度学科问答场景性能大幅超越同参数竞品,长文本摘要、文档解析、行业知识库问答优化。
2.6 检索增强多模态问答
内置多模态RAG检索引擎,图文混合输入场景下自动调取联网公开数据、用户私有知识库,SimpleVQA81.7、WorldVQA61.1,解决图片+自然问题结合的开放性问答需求,规避模型幻觉问题。

三、技术细节
3.1 模型基础参数与训练架构
基座底层:基于Qwen3.7原生文本基座模型,在原有3.7B基础参数之上,采用多模态参数冻结微调+增量参数蒸馏技术,新增独立视觉编码器Transformer子模块,视觉与文本采用跨模态交叉注意力(Cross-Attention)融合层,不改动原有文本主干权重,保障原有文本能力不衰减。
# 简易架构层级伪代码示意 BaseModel = Qwen3.7-Text-Base(3.7B) VisionEncoder = ViT-Large-CrossAttn(增量参数) CrossFusionLayer = MultimodalFusion() PlusModel = BaseModel + VisionEncoder + CrossFusionLayer
训练数据集:训练数据由三部分组成,千亿级通用文本语料、千万级图文配对训练集、百万级真实智能体执行轨迹数据集(GUI操作日志、代码调试日志、终端运行日志),依托达摩院自研数据清洗框架完成数据降噪与质量分级。
3.2 智能体专项优化技术
强化学习RL-Agent训练:采用多轮任务反馈式RLHF,以终端运行结果、代码运行报错信息、UI操作成功与否作为奖励信号,持续优化模型任务拆分逻辑,解决传统大模型多步骤任务连贯性差的痛点;
任务分层拆解算法:内置动态任务拆分算子,复杂需求自动拆分子任务队列,记录每一步执行状态,出错自动回滚上一节点重新生成方案,实现自主纠错。
3.3 多模态对齐技术
采用模态统一嵌入空间算法,图片像素特征、视频时序特征、文本Token特征映射至同一向量空间,消除图文语义割裂问题;针对屏幕截图专项优化像素特征提取逻辑,优化UI小控件、小字按钮的特征识别精度。
3.4 部署架构设计
云端版本:采用阿里云弹性算力集群部署,KV缓存动态调度技术,高并发场景自动扩容算力资源,API单接口QPS上限支持万级并发;
私有化版本:支持FP16/INT4/INT8三种量化格式,INT4量化后可在消费级高端显卡本地部署运行,兼顾推理速度与模型精度。
3.5 接口底层协议规范
全量接口遵循OpenAI兼容接口标准,同时额外拓展通义自研多模态入参字段,核心新增参数:enable_thinking:bool:开启深度思考推理模式,强化复杂任务逻辑;preserve_thinking:bool:保留模型思考过程返回内容,便于开发者调试智能体链路。
四、应用场景
采用有序列表划分六大落地场景,覆盖个人、中小企业、互联网大厂不同使用需求
全流程软件自动化开发场景
产品经理输入自然语言产品需求,Qwen3.7-Plus自动完成需求拆解、前后端代码编写、数据库设计、接口调试、项目打包部署,完整复刻桌面客户端、移动端APP,官方实测可完整复刻macOS原生股票行情软件,包含UI界面、实时行情数据接口、涨跌计算逻辑全功能,中小开发团队可依托模型缩减70%以上基础编码人力成本。电脑&移动端GUI自动化运维场景
通过屏幕截图输入,模型识别软件界面控件,自动完成表单批量填写、网页数据爬取、后台系统批量配置、云服务器选购与环境部署,替代传统RPA工具需要编写固定规则脚本的弊端,非技术人员仅凭自然语言即可搭建自动化工作流。理工科教育与科研场景
上传试卷照片、几何工程图纸、物理实验原理图,模型识图完成题目解析、分步演算、代码仿真实验结果,高校理工科教学、科研数据测算、毕业设计辅助开发,适用于中小学奥数辅导、大学理工科课题研发。企业文档&多模态知识库问答场景
企业上传合同、PDF技术手册、产品实拍图、设备结构图,接入私有RAG知识库后,员工通过图文提问快速调取对应资料内容,实现生产设备故障识图答疑、商务合同条款智能解读,落地制造业、法务、生产型企业内部知识库落地。运维&服务器自动化管控场景
对接服务器SSH终端,自然语言下达运维指令,模型自动生成Shell脚本执行服务器扩容、漏洞修复、环境配置、日志排查,依托Terminal专项优化能力处理复杂运维疑难问题,降低运维人员脚本编写门槛。短视频&动态画面解析场景
上传短视频素材,模型解析视频时序内容、画面信息,自动生成视频文案、镜头总结、内容标签,用于短视频自媒体内容生产、安防监控异常画面智能识别。
五、使用方法
5.1 云端API接入(主流商用方案)
前置准备:登录阿里云百炼Model Studio平台,完成企业/个人实名认证,创建API调用密钥(AK/SK);
接口调用:使用OpenAI标准请求格式,入参支持
messages文本内容+image_url图片链接/视频资源链接,新增enable_thinking参数控制深度推理开关;
# Python简易调用示例
from openai import OpenAI
client = OpenAI(
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
api_key="你的阿里云百炼AK密钥"
)
res = client.chat.completions.create(
model="qwen3.7-plus",
messages=[
{"role":"user","content":[
{"type":"text","text":"根据截图编写爬虫代码,抓取页面全部表格数据"},
{"type":"image_url","image_url":{"url":"图片在线地址"}}
]}
],
extra_body={"enable_thinking":True}
)
print(res.choices[0].message.content)计费规则:按照输入token+输出token阶梯计费,图文输入单独核算视觉token,阿里云新用户赠送免费试用额度。
5.2 本地私有化部署方案
硬件需求:INT4量化版本最低24G显存显卡,FP16原版推荐40G以上显存A100/A800显卡;
部署路径:从通义官方开源仓库下载模型权重文件,使用Transformers/VLLM推理框架加载权重,启动本地OpenAI兼容接口服务,本地私有化数据不出内网,满足政企数据安全管控需求。
5.3 智能体框架快速集成
在Claude Code、OpenClaw项目配置文件中替换原有模型名称为qwen3.7-plus,填入阿里云API地址与密钥,原有智能体工作流无需改动业务代码即可一键切换模型。

六、竞品对比
选取GPT-4o Mini、Claude 3.5 Haiku两款市面同档位多模态智能体模型,从参数规格、核心优势、短板、定价、智能体能力五大维度制作对比表格:
| 对比项目 | Qwen3.7-Plus | GPT-4o Mini | Claude3.5 Haiku |
|---|---|---|---|
| 产品归属 | 阿里达摩院通义千问 | OpenAI | Anthropic |
| 参数规格 | 3.7B优化增强版 | 小参数量蒸馏版 | 中等参数基座微调版 |
| 代码&终端智能体 | ⭐⭐⭐⭐⭐ 专项优化SWE/Terminal评测高分,支持GUI自动化、全栈工程开发 | ⭐⭐⭐ 通用代码尚可,终端脚本落地稳定性一般,无原生屏幕UI识别 | ⭐⭐⭐⭐ 长文本代码优秀,缺少屏幕视觉操控能力 |
| 多模态能力 | ⭐⭐⭐⭐⭐ 图片、截图、短视频全兼容,屏幕识别专项优化 | ⭐⭐⭐⭐ 通用图文优秀,界面控件识别精度偏弱 | ⭐⭐⭐ 仅静态图片解析,不支持短视频时序推理 |
| 接口兼容 | OpenAI全兼容+阿里自研扩展字段 | 原生OpenAI协议 | 自有Claude协议,兼容改造成本高 |
| 部署形态 | 云端API+本地私有化量化部署 | 仅云端API,无官方开源权重 | 仅云端商用接口,不支持本地部署 |
| 定价优势 | 国内人民币计价,阶梯单价更低,新用户免费额度充足 | 美元结算,跨境调用延迟高、成本偏高 | 境外计费,国内落地对接链路繁琐 |
对比总结
在国内本地化落地、GUI自动化、运维终端、私有化部署场景Qwen3.7-Plus具备明确性价比优势;GPT-4o Mini通用图文综合均衡但自动化智能体短板明显;Claude3.5 Haiku擅长超长文本处理,但多模态与本地部署能力受限。
七、常见问题解答
Q1:Qwen3.7-Plus和原生Qwen3.7标准版模型核心区别是什么?
A1:原生Qwen3.7标准版侧重通用文本问答,无专项多模态编码器与智能体RL训练;Qwen3.7-Plus新增独立视觉模块,经过百万级智能体轨迹强化训练,强化代码落地、GUI识图、长周期任务执行能力,整体工程落地能力远超标准版3.7基座,文本基础能力与标准版持平。
Q2:Qwen3.7-Plus是否支持免费试用,试用额度如何领取?
A2:阿里云百炼平台新注册实名认证用户自动赠送免费调用token额度,额度耗尽后按照阶梯计价付费;无永久免费版本,私有化本地部署需要自行采购硬件与商用授权。
Q3:模型调用返回结果出现代码运行报错、任务执行失败是什么原因?
A3:优先开启enable_thinking=True深度推理参数,强化模型逻辑推演;其次核对输入图片清晰度,模糊截图会降低UI识别精度;复杂超长任务建议拆分为多轮分步提问,避免单次任务负载超限。
Q4:能否将Qwen3.7-Plus接入企业私有知识库做私有化RAG?
A4:完全支持,本地私有化部署版本可对接企业内网向量数据库(Milvus、FAISS等),云端API版本通过接口对接第三方RAG框架,数据全部留存企业自有存储,模型不缓存企业私密资料。
Q5:Qwen3.7-Plus支持哪些格式的视觉文件输入?
A5:图片支持PNG、JPG、WEBP、BMP常规格式,短视频支持MP4通用封装格式,不支持加密视频、特殊编码小众视频格式,视频单次上传建议时长控制在3分钟以内。
Q6:本地INT4量化后模型性能衰减幅度大吗?
A6:官方优化量化算法,INT4量化后文本推理衰减≤5%,多模态视觉能力衰减≤8%,日常自动化、编码场景无明显感知,极致高精度科研场景推荐FP16原版权重部署。
Q7:接口调用出现网络延迟过高如何处理?
A7:国内用户优先选用阿里云华东、华北就近接入节点,境外业务可选阿里云国际版百炼接口;私有化本地部署无公网延迟问题,适合高并发实时业务。
八、相关链接
产品首发官方博客:https://qwen.ai/blog?id=qwen3.7-plus
阿里云百炼Qwen3.7-Plus在线调用地址:https://dashscope.aliyun.com/
通义Qwen开源项目Github主页:https://github.com/QwenLM/Qwen
九、总结
Qwen3.7-Plus作为通义千问3.7系列的增强智能体旗舰产品,依托阿里达摩院成熟的大模型训练技术与阿里云算力生态,补齐了同参数模型在多模态智能体落地、工程化代码开发、GUI视觉自动化领域的行业短板,产品兼顾云端商用API轻量化接入与本地私有化安全部署两种落地模式,在性价比、本土化适配、国产生态兼容层面对比海外同档位多模态模型拥有突出落地优势,产品覆盖软件开发、企业自动化、教育培训、运维管控等多元化落地场景,依托全框架兼容特性快速融入现有AI智能体开发生态,是国内中端参数大模型向实用化智能体落地的代表性产品,能够切实降低各行各业智能化改造、自动化项目开发的人力与技术门槛。
版权及免责申明:本文由@AI工具箱原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/qwen3-7-plus.html

