Qwen3.7-Plus:通义千问推出的多模态智能体大模型,全链路自动化编程与GUI视觉操控

原创 发布日期:
68

一、Qwen3.7-Plus是什么

Qwen3.7-Plus是由阿里达摩院通义千问团队自研、依托Qwen3.7原生基座迭代升级的多模态通用智能体大模型,归属通义Qwen大模型产品矩阵,主打视觉+文本+代码三位一体的自主智能体闭环能力,区别于常规通用大模型仅做内容生成的产品定位,Qwen3.7-Plus从底层架构重构多模态感知链路,实现「视觉观察-逻辑思考-代码编写-工具执行-结果校验」全链路自主运行,是通义系列面向工程落地、自动化办公、软件开发领域的中端旗舰级商用大模型,全量能力上架阿里云百炼平台对外开放标准化API调用,同时兼容OpenAI接口协议、主流智能体开发框架。

从产品层级划分来看,通义Qwen产品线分为轻量化小参数量模型、标准版基座模型、Plus增强智能体模型、Max旗舰超大模型四大梯队,Qwen3.7-Plus定位介于标准版3.7基座与Qwen3 Max旗舰之间,在3.7B参数基础上通过蒸馏优化、多模态对齐微调、智能体RLHF强化训练,补齐原生基座在视觉理解、长时序任务规划、工程化代码落地三大短板,兼顾轻量化部署成本与旗舰级任务处理效果,兼顾云端API调用、本地私有化部署两种使用形态,面向企业开发者、独立程序员、自动化产品研发人员三类核心用户群体。

二、功能特色

2.1 全链路多模态智能体闭环能力

  • 支持图片、截图、短视频、界面画面四类视觉输入,可自主识别GUI图形界面、系统弹窗、网页按钮、移动端控件,依托视觉信息拆解分步任务,自动调用代码、终端指令、浏览器工具完成操作,形成看-思-编-行-验标准化智能体工作流;

  • 内置长周期任务规划引擎,单轮任务可持续不间断运行11小时以上,无上下文遗忘、任务跑偏问题,打破传统大模型单次对话短任务限制。

2.2 全栈级代码生成与工程落地能力

  • 覆盖前端、后端、移动端、脚本、运维Shell全品类代码生成,从产品需求文档直接生成完整可运行项目源码,附带接口文档、测试用例、部署配置文件;

  • 在权威编码评测基准中,Terminal-Bench2.0得分70.3、SWE-bench多语言得分75.8,可解决真实开源仓库BUG、重构老旧项目代码,支持NL2Repo自然语言一键生成完整代码仓库。

2.3 多维度视觉深度推理能力

  • 屏幕UI专项识别:ScreenSpot Pro评测79.0分、AndroidWorld评测81.0分,精准定位电脑桌面、安卓APP内各类控件坐标,支撑软件自动化点击、表单填写;

  • 数理视觉推理:MathVision、HiPhO空间几何推理、物理场景识图解题,可解析试卷图片、几何图纸、工程制图并输出分步解题代码;

  • 动态视频时序理解:VideoMMMU85.4分,解析分段视频内容、时序逻辑,完成视频内容总结、画面异常点识别。

2.4 全框架智能体生态兼容

原生适配Claude Code、OpenClaw、Qwen Code三类市面主流智能体开发框架,无需修改底层提示词与调用逻辑,原有基于其他框架开发的智能体项目可直接替换模型参数完成迁移,降低开发者改造成本。

2.5 增强型通用文本推理

通用数理、逻辑推理对标高端大模型水准,GPQA Diamond 90.3、HMMT2026 92.9、IMOAnswerBench86.0,在奥数、生物化学、物理等高难度学科问答场景性能大幅超越同参数竞品,长文本摘要、文档解析、行业知识库问答优化。

2.6 检索增强多模态问答

内置多模态RAG检索引擎,图文混合输入场景下自动调取联网公开数据、用户私有知识库,SimpleVQA81.7、WorldVQA61.1,解决图片+自然问题结合的开放性问答需求,规避模型幻觉问题。

Qwen3.7-Plus:通义千问推出的多模态智能体大模型,全链路自动化编程与GUI视觉操控

三、技术细节

3.1 模型基础参数与训练架构

  1. 基座底层:基于Qwen3.7原生文本基座模型,在原有3.7B基础参数之上,采用多模态参数冻结微调+增量参数蒸馏技术,新增独立视觉编码器Transformer子模块,视觉与文本采用跨模态交叉注意力(Cross-Attention)融合层,不改动原有文本主干权重,保障原有文本能力不衰减。

# 简易架构层级伪代码示意
BaseModel = Qwen3.7-Text-Base(3.7B)
VisionEncoder = ViT-Large-CrossAttn(增量参数)
CrossFusionLayer = MultimodalFusion()
PlusModel = BaseModel + VisionEncoder + CrossFusionLayer
  1. 训练数据集:训练数据由三部分组成,千亿级通用文本语料、千万级图文配对训练集、百万级真实智能体执行轨迹数据集(GUI操作日志、代码调试日志、终端运行日志),依托达摩院自研数据清洗框架完成数据降噪与质量分级。

3.2 智能体专项优化技术

  • 强化学习RL-Agent训练:采用多轮任务反馈式RLHF,以终端运行结果、代码运行报错信息、UI操作成功与否作为奖励信号,持续优化模型任务拆分逻辑,解决传统大模型多步骤任务连贯性差的痛点;

  • 任务分层拆解算法:内置动态任务拆分算子,复杂需求自动拆分子任务队列,记录每一步执行状态,出错自动回滚上一节点重新生成方案,实现自主纠错。

3.3 多模态对齐技术

采用模态统一嵌入空间算法,图片像素特征、视频时序特征、文本Token特征映射至同一向量空间,消除图文语义割裂问题;针对屏幕截图专项优化像素特征提取逻辑,优化UI小控件、小字按钮的特征识别精度。

3.4 部署架构设计

  • 云端版本:采用阿里云弹性算力集群部署,KV缓存动态调度技术,高并发场景自动扩容算力资源,API单接口QPS上限支持万级并发;

  • 私有化版本:支持FP16/INT4/INT8三种量化格式,INT4量化后可在消费级高端显卡本地部署运行,兼顾推理速度与模型精度。

3.5 接口底层协议规范

全量接口遵循OpenAI兼容接口标准,同时额外拓展通义自研多模态入参字段,核心新增参数:
enable_thinking:bool:开启深度思考推理模式,强化复杂任务逻辑;
preserve_thinking:bool:保留模型思考过程返回内容,便于开发者调试智能体链路。

四、应用场景

采用有序列表划分六大落地场景,覆盖个人、中小企业、互联网大厂不同使用需求

  1. 全流程软件自动化开发场景
    产品经理输入自然语言产品需求,Qwen3.7-Plus自动完成需求拆解、前后端代码编写、数据库设计、接口调试、项目打包部署,完整复刻桌面客户端、移动端APP,官方实测可完整复刻macOS原生股票行情软件,包含UI界面、实时行情数据接口、涨跌计算逻辑全功能,中小开发团队可依托模型缩减70%以上基础编码人力成本。

  2. 电脑&移动端GUI自动化运维场景
    通过屏幕截图输入,模型识别软件界面控件,自动完成表单批量填写、网页数据爬取、后台系统批量配置、云服务器选购与环境部署,替代传统RPA工具需要编写固定规则脚本的弊端,非技术人员仅凭自然语言即可搭建自动化工作流。

  3. 理工科教育与科研场景
    上传试卷照片、几何工程图纸、物理实验原理图,模型识图完成题目解析、分步演算、代码仿真实验结果,高校理工科教学、科研数据测算、毕业设计辅助开发,适用于中小学奥数辅导、大学理工科课题研发。

  4. 企业文档&多模态知识库问答场景
    企业上传合同、PDF技术手册、产品实拍图、设备结构图,接入私有RAG知识库后,员工通过图文提问快速调取对应资料内容,实现生产设备故障识图答疑、商务合同条款智能解读,落地制造业、法务、生产型企业内部知识库落地。

  5. 运维&服务器自动化管控场景
    对接服务器SSH终端,自然语言下达运维指令,模型自动生成Shell脚本执行服务器扩容、漏洞修复、环境配置、日志排查,依托Terminal专项优化能力处理复杂运维疑难问题,降低运维人员脚本编写门槛。

  6. 短视频&动态画面解析场景
    上传短视频素材,模型解析视频时序内容、画面信息,自动生成视频文案、镜头总结、内容标签,用于短视频自媒体内容生产、安防监控异常画面智能识别。

五、使用方法

5.1 云端API接入(主流商用方案)

  1. 前置准备:登录阿里云百炼Model Studio平台,完成企业/个人实名认证,创建API调用密钥(AK/SK);

  2. 接口调用:使用OpenAI标准请求格式,入参支持messages文本内容+image_url图片链接/视频资源链接,新增enable_thinking参数控制深度推理开关;

# Python简易调用示例
from openai import OpenAI

client = OpenAI(
  base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
  api_key="你的阿里云百炼AK密钥"
)

res = client.chat.completions.create(
  model="qwen3.7-plus",
  messages=[
    {"role":"user","content":[
      {"type":"text","text":"根据截图编写爬虫代码,抓取页面全部表格数据"},
      {"type":"image_url","image_url":{"url":"图片在线地址"}}
    ]}
  ],
  extra_body={"enable_thinking":True}
)
print(res.choices[0].message.content)
  1. 计费规则:按照输入token+输出token阶梯计费,图文输入单独核算视觉token,阿里云新用户赠送免费试用额度。

5.2 本地私有化部署方案

  1. 硬件需求:INT4量化版本最低24G显存显卡,FP16原版推荐40G以上显存A100/A800显卡;

  2. 部署路径:从通义官方开源仓库下载模型权重文件,使用Transformers/VLLM推理框架加载权重,启动本地OpenAI兼容接口服务,本地私有化数据不出内网,满足政企数据安全管控需求。

5.3 智能体框架快速集成

在Claude Code、OpenClaw项目配置文件中替换原有模型名称为qwen3.7-plus,填入阿里云API地址与密钥,原有智能体工作流无需改动业务代码即可一键切换模型。

Qwen3.7-Plus-Score

六、竞品对比

选取GPT-4o Mini、Claude 3.5 Haiku两款市面同档位多模态智能体模型,从参数规格、核心优势、短板、定价、智能体能力五大维度制作对比表格:

对比项目 Qwen3.7-Plus GPT-4o Mini Claude3.5 Haiku
产品归属 阿里达摩院通义千问 OpenAI Anthropic
参数规格 3.7B优化增强版 小参数量蒸馏版 中等参数基座微调版
代码&终端智能体 ⭐⭐⭐⭐⭐ 专项优化SWE/Terminal评测高分,支持GUI自动化、全栈工程开发 ⭐⭐⭐ 通用代码尚可,终端脚本落地稳定性一般,无原生屏幕UI识别 ⭐⭐⭐⭐ 长文本代码优秀,缺少屏幕视觉操控能力
多模态能力 ⭐⭐⭐⭐⭐ 图片、截图、短视频全兼容,屏幕识别专项优化 ⭐⭐⭐⭐ 通用图文优秀,界面控件识别精度偏弱 ⭐⭐⭐ 仅静态图片解析,不支持短视频时序推理
接口兼容 OpenAI全兼容+阿里自研扩展字段 原生OpenAI协议 自有Claude协议,兼容改造成本高
部署形态 云端API+本地私有化量化部署 仅云端API,无官方开源权重 仅云端商用接口,不支持本地部署
定价优势 国内人民币计价,阶梯单价更低,新用户免费额度充足 美元结算,跨境调用延迟高、成本偏高 境外计费,国内落地对接链路繁琐

对比总结

国内本地化落地、GUI自动化、运维终端、私有化部署场景Qwen3.7-Plus具备明确性价比优势;GPT-4o Mini通用图文综合均衡但自动化智能体短板明显;Claude3.5 Haiku擅长超长文本处理,但多模态与本地部署能力受限。

七、常见问题解答

Q1:Qwen3.7-Plus和原生Qwen3.7标准版模型核心区别是什么?

A1:原生Qwen3.7标准版侧重通用文本问答,无专项多模态编码器与智能体RL训练;Qwen3.7-Plus新增独立视觉模块,经过百万级智能体轨迹强化训练,强化代码落地、GUI识图、长周期任务执行能力,整体工程落地能力远超标准版3.7基座,文本基础能力与标准版持平。

Q2:Qwen3.7-Plus是否支持免费试用,试用额度如何领取?

A2:阿里云百炼平台新注册实名认证用户自动赠送免费调用token额度,额度耗尽后按照阶梯计价付费;无永久免费版本,私有化本地部署需要自行采购硬件与商用授权。

Q3:模型调用返回结果出现代码运行报错、任务执行失败是什么原因?

A3:优先开启enable_thinking=True深度推理参数,强化模型逻辑推演;其次核对输入图片清晰度,模糊截图会降低UI识别精度;复杂超长任务建议拆分为多轮分步提问,避免单次任务负载超限。

Q4:能否将Qwen3.7-Plus接入企业私有知识库做私有化RAG?

A4:完全支持,本地私有化部署版本可对接企业内网向量数据库(Milvus、FAISS等),云端API版本通过接口对接第三方RAG框架,数据全部留存企业自有存储,模型不缓存企业私密资料。

Q5:Qwen3.7-Plus支持哪些格式的视觉文件输入?

A5:图片支持PNG、JPG、WEBP、BMP常规格式,短视频支持MP4通用封装格式,不支持加密视频、特殊编码小众视频格式,视频单次上传建议时长控制在3分钟以内。

Q6:本地INT4量化后模型性能衰减幅度大吗?

A6:官方优化量化算法,INT4量化后文本推理衰减≤5%,多模态视觉能力衰减≤8%,日常自动化、编码场景无明显感知,极致高精度科研场景推荐FP16原版权重部署。

Q7:接口调用出现网络延迟过高如何处理?

A7:国内用户优先选用阿里云华东、华北就近接入节点,境外业务可选阿里云国际版百炼接口;私有化本地部署无公网延迟问题,适合高并发实时业务。

八、相关链接

  1. 产品首发官方博客:https://qwen.ai/blog?id=qwen3.7-plus

  2. 阿里云百炼Qwen3.7-Plus在线调用地址:https://dashscope.aliyun.com/

  3. 通义Qwen开源项目Github主页:https://github.com/QwenLM/Qwen

九、总结

Qwen3.7-Plus作为通义千问3.7系列的增强智能体旗舰产品,依托阿里达摩院成熟的大模型训练技术与阿里云算力生态,补齐了同参数模型在多模态智能体落地、工程化代码开发、GUI视觉自动化领域的行业短板,产品兼顾云端商用API轻量化接入与本地私有化安全部署两种落地模式,在性价比、本土化适配、国产生态兼容层面对比海外同档位多模态模型拥有突出落地优势,产品覆盖软件开发、企业自动化、教育培训、运维管控等多元化落地场景,依托全框架兼容特性快速融入现有AI智能体开发生态,是国内中端参数大模型向实用化智能体落地的代表性产品,能够切实降低各行各业智能化改造、自动化项目开发的人力与技术门槛。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新