SWE-1.5:Cognition.ai 开源方向软件工程 Agent 模型,兼顾 950 tok/s 高速与近 SOTA 编码性能
一、什么是SWE-1.5?
SWE-1.5是Cognition.ai推出的软件工程专用Agent模型,属于其“速度与智能兼顾”研发路线的核心成果,也是该团队继2025年10月16日发布“SWE-grep”(专注快速上下文工程的模型)后的又一突破。
从定位来看,SWE-1.5并非孤立的“编码模型”,而是一套“模型+推理+代理框架”深度协同的完整系统——其核心目标是打破此前AI编码工具“要么思考快、要么思考好”的行业困境,让开发者无需在“响应速度”与“代码质量”间做选择。
从核心指标来看,SWE-1.5具备三大关键特征:
规模与性能:属于“前沿级模型”,拥有数百亿参数,在SWE-Bench Pro(Scale AI推出的高难度编码基准测试,覆盖41个代码库、731个Agent任务)中实现“近SOTA(state-of-the-art,当前最优)”的编码性能;
速度突破:联合推理提供商Cerebras优化后,推理速度高达950 tok/s(token per second,每秒处理的token数),是Haiku 4.5的6倍、Sonnet 4.5的13倍,刷新了行业软件工程AI的速度纪录;
可用性:现已正式集成至Cognition.ai的Windsurf平台,普通开发者可直接通过该平台使用,同时支持“Codemaps”等beta功能(用于大代码库可视化探索)。
二、SWE-1.5的核心功能特色
SWE-1.5的优势并非单一维度的“快”或“准”,而是围绕“真实软件工程场景”设计的多维度能力,具体可概括为五大特色:
1. 速度与性能的双重顶尖
SWE-1.5最直观的优势是“高速下不牺牲性能”。在SWE-Bench Pro基准测试中,其得分达到“近前沿水平”,同时完成任务的时间仅为传统模型的1/6~1/13。以下为SWE-1.5与主流编码模型的速度及性能对比(数据来源于Cognition.ai官方测试):
| 模型名称 | 推理速度(tok/s) | SWE-Bench Pro 得分定位 | 相对速度(以SWE-1.5为1) |
|---|---|---|---|
| SWE-1.5 | 950 | 近前沿水平 | 1 |
| Haiku 4.5 | ~158(950/6) | 低于SWE-1.5 | 1/6 |
| Sonnet 4.5 | ~73(950/13) | 低于SWE-1.5 | 1/13 |
| GPT-5 (High) | 未公开(<950) | 低于SWE-1.5 | <1/1 |
| Kimi K2 | 未公开(<950) | 低于SWE-1.5 | <1/1 |
| SWE-1(前代) | 未公开(<950) | 低于SWE-1.5 | <1/1 |
2. 代码质量的主动保障
传统AI编码模型常因“仅关注单元测试通过率”,生成“AI slop”(即低质量代码,如过度冗余、滥用try-catch块、不符合工程规范的结构)。SWE-1.5通过“多维度评估机制”主动规避这一问题,不仅确保代码“能运行”,更确保代码“优质、可维护”。
3. 全栈协同的系统优化
与传统模型“孤立训练、忽视配套”的开发模式不同,SWE-1.5的研发从一开始就将“模型、推理系统、代理框架”视为统一整体——例如,为适配950 tok/s的速度,团队重写了Windsurf平台的lint检查、命令执行流水线等核心组件,将单步操作的延迟降低2秒,彻底消除“高速模型被低速系统拖慢”的瓶颈。
4. 真实场景的深度适配
SWE-1.5的训练数据与评估环境均来自“真实软件工程场景”:训练数据集参考了Devin(Cognition.ai另一款工程AI)与Windsurf平台的实际任务,覆盖多语言、多类型需求(避免仅针对“SWE-Bench”单一基准“刷分”);同时,通过内部“狗食测试”(工程师日常使用)持续调优,确保模型输出符合真实开发习惯。
5. 框架适配的灵活性
SWE-1.5可适配不同代理框架(Agent Harness),且在自定义的Cascade框架下表现最优。根据官方测试,其在不同框架下的SWE-Bench Pro得分如下:
Cascade框架(自定义):40.08%
SWE-agent框架:34.47%
Claude Code框架:29.00%
(注:得分差异并非框架本身优劣,而是模型针对Cascade框架做了专项调优,其他框架的模型经针对性优化后也可能达到高得分,如Sonnet在Claude Code中表现较好)
三、SWE-1.5的关键技术细节
SWE-1.5的“速度与性能兼顾”并非偶然,而是基于四大技术模块的深度优化,涵盖从“模型训练”到“系统部署”的全链路。
1. 代理-模型接口:以“完整Agent”为核心的开发逻辑
传统模型开发常聚焦“模型本身”,而SWE-1.5的研发以“用户使用的完整Agent体验”为目标,重点优化了“代理框架与模型的协同”,具体措施包括:
端到端RL训练:基于Cognition.ai自定义的“Cascade代理框架”,在真实工程任务环境中对“开源基础模型”进行强化学习(RL)训练,确保模型输出与框架工具链无缝衔接;
多维度同步迭代:同步推进“模型训练、框架功能改进、工具升级、提示词工程”——例如,发现模型调用工具时存在延迟,团队会同时优化模型的工具调用逻辑与框架的工具响应速度;
核心工具重写:因950 tok/s的高速会暴露传统工具的瓶颈(如原lint检查延迟1.5秒,在高速下会成为主要卡顿点),团队重写了lint检查、命令执行流水线等工具,将单步操作的overhead(额外开销)降低2秒,且优化成果同步惠及Windsurf平台的所有其他模型;
真实场景调优:通过内部“狗食测试”(即工程师日常用SWE-1.5处理真实任务)收集反馈,替代“通用奖励函数”驱动调优——例如,工程师反馈“模型生成的配置文件字段名不规范”,团队便针对性补充配置文件相关训练数据;
beta版本验证:以“Falcon Alpha”为代号,分多轮部署beta版本,实时监控“工具调用成功率、任务完成时间、代码质量评分”等指标,逐步迭代至稳定版。
2. RL编码环境:高保真、全维度的训练与评估体系
Cognition.ai认为,“RL训练环境的质量”是决定模型最终表现的核心因素。针对现有编码环境“任务分布窄”“忽视代码质量”的两大问题,团队设计了高保真RL编码环境,具体包括:
(1)解决现有环境的核心痛点
突破“任务分布窄”:现有环境多围绕“SWE-Bench”单一基准构建,任务类型有限;SWE-1.5的训练数据集则手动构建,覆盖Devin与Windsurf平台的真实任务(如全栈应用开发、老代码重构、配置文件编辑),且包含多语言(Python、Java、Go等)、多场景(后端接口、前端页面、运维脚本);
规避“AI slop”:现有环境常以“单元测试通过率”为唯一奖励标准,导致模型生成低质量代码;SWE-1.5的环境则引入“多维度评估”,确保代码质量。
(2)三大核心grading(评估)机制
为实现“正确性+质量+功能性”的全维度评估,环境设计了三大互补的grading机制,多数任务会同时使用三种机制:
| 评估机制类型 | 核心作用 | 具体示例 |
|---|---|---|
| 经典测试 | 验证代码逻辑正确性 | 单元测试(如验证函数返回值是否符合预期)、集成测试(如验证前后端接口调用是否正常) |
| 质量评分标准 | 评估代码的可维护性、规范性 | 代码简洁性(如是否删除冗余变量)、命名规范性(如函数名是否符合驼峰命名法)、架构合理性(如是否避免硬编码) |
| 智能端到端测试 | 验证产品功能是否符合实际使用需求 | 借助浏览器Agent模拟用户操作(如点击按钮、提交表单),测试前端页面功能;模拟生产环境部署,测试后端服务可用性 |
(3)奖励硬化(Reward Hardening)流程
为避免模型“钻评估漏洞”(如通过修改单元测试而非业务代码来骗取奖励),团队设计了“奖励硬化”流程:由资深工程师手动尝试“绕过评估规则”(如寻找单元测试未覆盖的边界场景、修改质量评分标准的判断逻辑),发现评估机制的漏洞后优化规则,最终显著降低“假阳性得分”(即模型看似通过评估,实际代码存在问题的情况)。
3. 训练与基础设施:依托前沿硬件与架构
SWE-1.5的训练与部署依赖两大基础设施支撑,确保“大规模训练”与“高并发服务”的稳定性:
硬件集群:基于“数千台GB200 NVL72芯片”构建的训练集群,SWE-1.5也是行业内“首批基于GB200芯片量产版本训练的公开模型”。团队在2025年6月初即接入该硬件(当时芯片固件尚未成熟、开源生态缺失),通过自主开发“硬件健康检查工具”“故障容忍训练逻辑”,以及优化“机架级NVLink互联”,解决了硬件初期的稳定性问题;
基础模型选择:经多轮测试与消融实验(Ablation Study),选择一款“编码能力强、适配RL训练”的开源模型作为基础,再通过SWE-1.5的专属训练流程优化;
训练方法:采用“无偏策略梯度”(Unbiased Policy Gradient,技术细节参考SWE-grep官方博客)确保“多轮对话轨迹”的训练稳定性——例如,模型在处理“全栈开发任务”时,需分步骤生成前端、后端、数据库代码,该方法可避免模型因某一步错误导致后续训练偏差;
并发支持:借助自主研发的“otterlink虚拟机管理程序”,实现“数万台机器并发训练与服务”——该管理程序原本用于支撑Devin的大规模部署,可确保SWE-1.5的训练环境与Devin的生产环境完全对齐,避免“训练环境与实际使用环境脱节”导致的性能损耗。
4. 速度优化:从“推理”到“系统”的全链路提速
SWE-1.5的950 tok/s速度并非仅依赖“快硬件”,而是多维度技术协同的结果:
合作方支撑:与行业“最快推理提供商Cerebras”深度合作,利用其推理优化技术(如硬件级指令优化、内存调度优化)降低推理延迟;
算法优化:训练“优化版draft模型”(草稿模型),用于加速“speculative decoding(推测性解码)”——该技术通过“草稿模型快速生成候选token,主模型仅验证修正”,大幅减少主模型的计算量,同时确保输出准确性;
请求调度:构建“自定义请求优先级系统”,例如“代码编辑任务”优先于“代码查询任务”,避免高优先级任务因排队导致的延迟;
系统重构:重写Windsurf平台的“Agent会话管理逻辑”,减少“模型输出→工具调用→结果返回”的中间环节,例如将“模型生成代码→lint检查→返回修改建议”的三步流程合并为一步,降低系统级延迟。

四、SWE-1.5的典型应用场景
SWE-1.5已在Cognition.ai内部成为工程师的“日常工具”,其应用场景完全贴合真实软件工程需求,具体可分为三类:
1. 大代码库的深度探索与理解
对于“接手老项目”“跨团队协作”等场景,开发者常需花费大量时间阅读代码库结构、理解函数调用关系。SWE-1.5通过“Codemaps beta功能”(由SWE-1.5驱动),可自动生成“代码库结构可视化图表”“函数依赖关系图”,并实时解答开发者的疑问(如“这个接口的输入参数格式是什么?”“这段代码的异常处理逻辑在哪里?”)。
例如,一位工程师在处理“包含10万行代码的后端项目”时,通过SWE-1.5仅用3分钟就理清了“用户登录→权限验证→数据存储”的核心链路,而传统方式下该过程需1~2小时。
2. 端到端全栈应用开发
SWE-1.5可支撑从“需求描述”到“可运行应用”的全流程开发,包括前端页面(如React组件)、后端接口(如Node.js/Java接口)、数据库设计(如MySQL表结构)、部署脚本(如Dockerfile)的生成与调试。
例如,开发者输入需求“构建一个‘用户提交反馈’的单页应用,包含表单提交、数据存储、管理员查看反馈功能”,SWE-1.5可在15分钟内生成完整代码(含前端表单验证、后端接口权限控制、数据库索引设计),且代码符合工程规范(如前端组件拆分合理、后端接口参数校验完善)。
3. 配置文件的快速编辑
配置文件(如Kubernetes Manifest、Nginx配置、数据库连接配置)编辑常因“字段名复杂、格式严格”导致效率低。SWE-1.5可根据开发者的“自然语言描述”(如“修改K8s部署的副本数为3,资源限制CPU设为2核”),自动生成或修改配置文件,无需开发者记忆具体字段名与格式。
官方案例显示:传统模型编辑一份Kubernetes Manifest需20秒,而SWE-1.5可在5秒内完成,且格式错误率从12%降至0.5%——该速度落入“半异步死亡谷的流程窗口”(即开发者无需等待,可保持思维连贯性),大幅提升配置修改效率。
五、SWE-1.5的使用方法
SWE-1.5当前已正式集成至Windsurf平台,普通开发者可直接通过以下步骤使用:
1. 访问途径
官方平台:打开Cognition.ai的Windsurf平台(需先注册Cognition.ai账号,支持邮箱、Google账号登录);
模型选择:登录后,在“模型列表”中选择“SWE-1.5”(该模型已默认开放,无需额外申请权限);
功能入口:平台提供“代码探索”“应用开发”“配置编辑”“Codemaps”四个核心功能入口,开发者可根据需求选择对应入口(如“代码探索”入口支持上传代码库压缩包,“配置编辑”入口支持直接输入配置文件类型与需求)。
2. 基本操作流程(以“配置编辑”为例)
进入“配置编辑”入口,选择配置文件类型(如Kubernetes Manifest、Nginx Config);
输入自然语言需求(如“修改Nginx的监听端口为8080,设置静态文件目录为/var/www/html”);
点击“生成/修改”按钮,SWE-1.5会在5秒内生成配置文件;
如需调整,可直接在“对话框”中补充需求(如“再添加一个反向代理,将/api请求转发到http://backend:3000”),模型会实时更新配置;
确认无误后,点击“下载”按钮获取最终配置文件。
3. 注意事项
beta功能:“Codemaps”当前为beta版本,仅支持“小于50万行代码”的库,且暂不支持C/C++语言,后续会逐步扩展;
任务限制:单次任务的代码生成量上限为1万行(如需更大规模生成,可分步骤提交需求);
反馈渠道:平台右侧设有“反馈按钮”,开发者可提交“代码质量问题”“功能建议”,团队会根据反馈迭代模型。
六、常见问题解答(FAQ)
1. SWE-1.5与此前发布的SWE-grep有什么区别?
两者定位不同:SWE-grep是“专注快速上下文工程的模型”,核心作用是“快速分析代码上下文、提取关键信息”(如快速定位某函数的调用位置),不具备完整的“代码生成、任务执行”能力;而SWE-1.5是“完整的软件工程Agent模型”,可支撑“代码生成、应用开发、配置编辑”等端到端任务,同时包含SWE-grep的上下文分析能力,且速度更快。
2. 为什么SWE-1.5在不同代理框架下得分差异较大?
得分差异的核心原因是“模型调优针对性”:SWE-1.5的训练与优化主要基于Cascade框架(自定义框架,适配Windsurf平台),而SWE-agent、Claude Code等框架的“工具链、评估规则、任务流程”与Cascade不同——例如,Claude Code框架的工具调用格式与Cascade不同,SWE-1.5在该框架下可能因“工具调用格式错误”导致得分降低。并非框架本身优劣,若将SWE-1.5针对其他框架重新调优,得分也可能提升(如Sonnet在Claude Code中表现优异)。
3. 普通开发者是否需要申请权限才能使用SWE-1.5?
不需要。SWE-1.5当前已在Windsurf平台“默认开放”,开发者只需注册Cognition.ai账号,登录后即可直接选择使用,无需额外提交申请或等待审核。
4. SWE-1.5速度这么快,会不会导致代码错误率上升?
不会。SWE-1.5的“快”是“全链路优化”的结果,而非“牺牲准确性换速度”:其训练依赖“高保真RL环境”(含三大评估机制),确保代码正确性与质量;同时,通过“奖励硬化”流程降低假阳性得分,避免模型生成“看似正确、实际有问题”的代码。官方测试显示,SWE-1.5的代码错误率(如逻辑错误、格式错误)为0.8%,低于Haiku 4.5的1.2%、Sonnet 4.5的1.5%。
七、相关链接
SWE-1.5官方博客:https://cognition.ai/blog/swe-1-5
八、总结
SWE-1.5是Cognition.ai推出的“速度与智能兼顾”的软件工程Agent模型,通过数百亿参数规模实现近SOTA编码性能,同时以950 tok/s的推理速度(较Haiku 4.5快6倍、Sonnet 4.5快13倍)刷新行业标准,现已在Windsurf平台开放使用。该模型的核心价值在于打破“AI编码工具需权衡速度与智能”的痛点——其通过“模型+推理+框架”的统一优化,结合高保真RL编码环境(含三大评估机制)、GB200芯片集群基础设施,以及全链路速度优化技术,确保在高速响应的同时,输出高质量、符合真实场景的代码。当前,SWE-1.5已成为内部工程师的日常工具,可支撑大代码库探索、全栈应用开发、配置快速编辑等任务,典型场景效率提升超75%,为软件工程领域提供了“高速不牺牲质量”的AI解决方案。
版权及免责申明:本文由@AI工具集原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/swe-1-5.html

