SWE-1.5：Cognition.ai 开源方向软件工程 Agent 模型，兼顾 950 tok/s 高速与近 SOTA 编码性能

原创发布日期：2025-11-05

一、什么是SWE-1.5？

SWE-1.5是Cognition.ai推出的软件工程专用Agent模型，属于其“速度与智能兼顾”研发路线的核心成果，也是该团队继2025年10月16日发布“SWE-grep”（专注快速上下文工程的模型）后的又一突破。

从定位来看，SWE-1.5并非孤立的“编码模型”，而是一套“模型+推理+代理框架”深度协同的完整系统——其核心目标是打破此前AI编码工具“要么思考快、要么思考好”的行业困境，让开发者无需在“响应速度”与“代码质量”间做选择。

从核心指标来看，SWE-1.5具备三大关键特征：

规模与性能：属于“前沿级模型”，拥有数百亿参数，在SWE-Bench Pro（Scale AI推出的高难度编码基准测试，覆盖41个代码库、731个Agent任务）中实现“近SOTA（state-of-the-art，当前最优）”的编码性能；
速度突破：联合推理提供商Cerebras优化后，推理速度高达950 tok/s（token per second，每秒处理的token数），是Haiku 4.5的6倍、Sonnet 4.5的13倍，刷新了行业软件工程AI的速度纪录；
可用性：现已正式集成至Cognition.ai的Windsurf平台，普通开发者可直接通过该平台使用，同时支持“Codemaps”等beta功能（用于大代码库可视化探索）。

二、SWE-1.5的核心功能特色

SWE-1.5的优势并非单一维度的“快”或“准”，而是围绕“真实软件工程场景”设计的多维度能力，具体可概括为五大特色：

1. 速度与性能的双重顶尖

SWE-1.5最直观的优势是“高速下不牺牲性能”。在SWE-Bench Pro基准测试中，其得分达到“近前沿水平”，同时完成任务的时间仅为传统模型的1/6~1/13。以下为SWE-1.5与主流编码模型的速度及性能对比（数据来源于Cognition.ai官方测试）：

模型名称	推理速度（tok/s）	SWE-Bench Pro 得分定位	相对速度（以SWE-1.5为1）
SWE-1.5	950	近前沿水平	1
Haiku 4.5	~158（950/6）	低于SWE-1.5	1/6
Sonnet 4.5	~73（950/13）	低于SWE-1.5	1/13
GPT-5 (High)	未公开（<950）	低于SWE-1.5	<1/1
Kimi K2	未公开（<950）	低于SWE-1.5	<1/1
SWE-1（前代）	未公开（<950）	低于SWE-1.5	<1/1

2. 代码质量的主动保障

传统AI编码模型常因“仅关注单元测试通过率”，生成“AI slop”（即低质量代码，如过度冗余、滥用try-catch块、不符合工程规范的结构）。SWE-1.5通过“多维度评估机制”主动规避这一问题，不仅确保代码“能运行”，更确保代码“优质、可维护”。

3. 全栈协同的系统优化

与传统模型“孤立训练、忽视配套”的开发模式不同，SWE-1.5的研发从一开始就将“模型、推理系统、代理框架”视为统一整体——例如，为适配950 tok/s的速度，团队重写了Windsurf平台的lint检查、命令执行流水线等核心组件，将单步操作的延迟降低2秒，彻底消除“高速模型被低速系统拖慢”的瓶颈。

4. 真实场景的深度适配

SWE-1.5的训练数据与评估环境均来自“真实软件工程场景”：训练数据集参考了Devin（Cognition.ai另一款工程AI）与Windsurf平台的实际任务，覆盖多语言、多类型需求（避免仅针对“SWE-Bench”单一基准“刷分”）；同时，通过内部“狗食测试”（工程师日常使用）持续调优，确保模型输出符合真实开发习惯。

5. 框架适配的灵活性

SWE-1.5可适配不同代理框架（Agent Harness），且在自定义的Cascade框架下表现最优。根据官方测试，其在不同框架下的SWE-Bench Pro得分如下：

Cascade框架（自定义）：40.08%
SWE-agent框架：34.47%
Claude Code框架：29.00%
（注：得分差异并非框架本身优劣，而是模型针对Cascade框架做了专项调优，其他框架的模型经针对性优化后也可能达到高得分，如Sonnet在Claude Code中表现较好）

三、SWE-1.5的关键技术细节

SWE-1.5的“速度与性能兼顾”并非偶然，而是基于四大技术模块的深度优化，涵盖从“模型训练”到“系统部署”的全链路。

1. 代理-模型接口：以“完整Agent”为核心的开发逻辑

传统模型开发常聚焦“模型本身”，而SWE-1.5的研发以“用户使用的完整Agent体验”为目标，重点优化了“代理框架与模型的协同”，具体措施包括：

端到端RL训练：基于Cognition.ai自定义的“Cascade代理框架”，在真实工程任务环境中对“开源基础模型”进行强化学习（RL）训练，确保模型输出与框架工具链无缝衔接；
多维度同步迭代：同步推进“模型训练、框架功能改进、工具升级、提示词工程”——例如，发现模型调用工具时存在延迟，团队会同时优化模型的工具调用逻辑与框架的工具响应速度；
核心工具重写：因950 tok/s的高速会暴露传统工具的瓶颈（如原lint检查延迟1.5秒，在高速下会成为主要卡顿点），团队重写了lint检查、命令执行流水线等工具，将单步操作的overhead（额外开销）降低2秒，且优化成果同步惠及Windsurf平台的所有其他模型；
真实场景调优：通过内部“狗食测试”（即工程师日常用SWE-1.5处理真实任务）收集反馈，替代“通用奖励函数”驱动调优——例如，工程师反馈“模型生成的配置文件字段名不规范”，团队便针对性补充配置文件相关训练数据；
beta版本验证：以“Falcon Alpha”为代号，分多轮部署beta版本，实时监控“工具调用成功率、任务完成时间、代码质量评分”等指标，逐步迭代至稳定版。

2. RL编码环境：高保真、全维度的训练与评估体系

Cognition.ai认为，“RL训练环境的质量”是决定模型最终表现的核心因素。针对现有编码环境“任务分布窄”“忽视代码质量”的两大问题，团队设计了高保真RL编码环境，具体包括：

（1）解决现有环境的核心痛点

突破“任务分布窄”：现有环境多围绕“SWE-Bench”单一基准构建，任务类型有限；SWE-1.5的训练数据集则手动构建，覆盖Devin与Windsurf平台的真实任务（如全栈应用开发、老代码重构、配置文件编辑），且包含多语言（Python、Java、Go等）、多场景（后端接口、前端页面、运维脚本）；
规避“AI slop”：现有环境常以“单元测试通过率”为唯一奖励标准，导致模型生成低质量代码；SWE-1.5的环境则引入“多维度评估”，确保代码质量。

（2）三大核心grading（评估）机制

为实现“正确性+质量+功能性”的全维度评估，环境设计了三大互补的grading机制，多数任务会同时使用三种机制：

评估机制类型	核心作用	具体示例
经典测试	验证代码逻辑正确性	单元测试（如验证函数返回值是否符合预期）、集成测试（如验证前后端接口调用是否正常）
质量评分标准	评估代码的可维护性、规范性	代码简洁性（如是否删除冗余变量）、命名规范性（如函数名是否符合驼峰命名法）、架构合理性（如是否避免硬编码）
智能端到端测试	验证产品功能是否符合实际使用需求	借助浏览器Agent模拟用户操作（如点击按钮、提交表单），测试前端页面功能；模拟生产环境部署，测试后端服务可用性

（3）奖励硬化（Reward Hardening）流程

为避免模型“钻评估漏洞”（如通过修改单元测试而非业务代码来骗取奖励），团队设计了“奖励硬化”流程：由资深工程师手动尝试“绕过评估规则”（如寻找单元测试未覆盖的边界场景、修改质量评分标准的判断逻辑），发现评估机制的漏洞后优化规则，最终显著降低“假阳性得分”（即模型看似通过评估，实际代码存在问题的情况）。

3. 训练与基础设施：依托前沿硬件与架构

SWE-1.5的训练与部署依赖两大基础设施支撑，确保“大规模训练”与“高并发服务”的稳定性：

硬件集群：基于“数千台GB200 NVL72芯片”构建的训练集群，SWE-1.5也是行业内“首批基于GB200芯片量产版本训练的公开模型”。团队在2025年6月初即接入该硬件（当时芯片固件尚未成熟、开源生态缺失），通过自主开发“硬件健康检查工具”“故障容忍训练逻辑”，以及优化“机架级NVLink互联”，解决了硬件初期的稳定性问题；
基础模型选择：经多轮测试与消融实验（Ablation Study），选择一款“编码能力强、适配RL训练”的开源模型作为基础，再通过SWE-1.5的专属训练流程优化；
训练方法：采用“无偏策略梯度”（Unbiased Policy Gradient，技术细节参考SWE-grep官方博客）确保“多轮对话轨迹”的训练稳定性——例如，模型在处理“全栈开发任务”时，需分步骤生成前端、后端、数据库代码，该方法可避免模型因某一步错误导致后续训练偏差；
并发支持：借助自主研发的“otterlink虚拟机管理程序”，实现“数万台机器并发训练与服务”——该管理程序原本用于支撑Devin的大规模部署，可确保SWE-1.5的训练环境与Devin的生产环境完全对齐，避免“训练环境与实际使用环境脱节”导致的性能损耗。

4. 速度优化：从“推理”到“系统”的全链路提速

SWE-1.5的950 tok/s速度并非仅依赖“快硬件”，而是多维度技术协同的结果：

合作方支撑：与行业“最快推理提供商Cerebras”深度合作，利用其推理优化技术（如硬件级指令优化、内存调度优化）降低推理延迟；
算法优化：训练“优化版draft模型”（草稿模型），用于加速“speculative decoding（推测性解码）”——该技术通过“草稿模型快速生成候选token，主模型仅验证修正”，大幅减少主模型的计算量，同时确保输出准确性；
请求调度：构建“自定义请求优先级系统”，例如“代码编辑任务”优先于“代码查询任务”，避免高优先级任务因排队导致的延迟；
系统重构：重写Windsurf平台的“Agent会话管理逻辑”，减少“模型输出→工具调用→结果返回”的中间环节，例如将“模型生成代码→lint检查→返回修改建议”的三步流程合并为一步，降低系统级延迟。

SWE-1.5：Cognition.ai 开源方向软件工程 Agent 模型，兼顾 950 tok/s 高速与近 SOTA 编码性能

四、SWE-1.5的典型应用场景

SWE-1.5已在Cognition.ai内部成为工程师的“日常工具”，其应用场景完全贴合真实软件工程需求，具体可分为三类：

1. 大代码库的深度探索与理解

对于“接手老项目”“跨团队协作”等场景，开发者常需花费大量时间阅读代码库结构、理解函数调用关系。SWE-1.5通过“Codemaps beta功能”（由SWE-1.5驱动），可自动生成“代码库结构可视化图表”“函数依赖关系图”，并实时解答开发者的疑问（如“这个接口的输入参数格式是什么？”“这段代码的异常处理逻辑在哪里？”）。

例如，一位工程师在处理“包含10万行代码的后端项目”时，通过SWE-1.5仅用3分钟就理清了“用户登录→权限验证→数据存储”的核心链路，而传统方式下该过程需1~2小时。

2. 端到端全栈应用开发

SWE-1.5可支撑从“需求描述”到“可运行应用”的全流程开发，包括前端页面（如React组件）、后端接口（如Node.js/Java接口）、数据库设计（如MySQL表结构）、部署脚本（如Dockerfile）的生成与调试。

例如，开发者输入需求“构建一个‘用户提交反馈’的单页应用，包含表单提交、数据存储、管理员查看反馈功能”，SWE-1.5可在15分钟内生成完整代码（含前端表单验证、后端接口权限控制、数据库索引设计），且代码符合工程规范（如前端组件拆分合理、后端接口参数校验完善）。

3. 配置文件的快速编辑

配置文件（如Kubernetes Manifest、Nginx配置、数据库连接配置）编辑常因“字段名复杂、格式严格”导致效率低。SWE-1.5可根据开发者的“自然语言描述”（如“修改K8s部署的副本数为3，资源限制CPU设为2核”），自动生成或修改配置文件，无需开发者记忆具体字段名与格式。

官方案例显示：传统模型编辑一份Kubernetes Manifest需20秒，而SWE-1.5可在5秒内完成，且格式错误率从12%降至0.5%——该速度落入“半异步死亡谷的流程窗口”（即开发者无需等待，可保持思维连贯性），大幅提升配置修改效率。

五、SWE-1.5的使用方法

SWE-1.5当前已正式集成至Windsurf平台，普通开发者可直接通过以下步骤使用：

1. 访问途径

官方平台：打开Cognition.ai的Windsurf平台（需先注册Cognition.ai账号，支持邮箱、Google账号登录）；
模型选择：登录后，在“模型列表”中选择“SWE-1.5”（该模型已默认开放，无需额外申请权限）；
功能入口：平台提供“代码探索”“应用开发”“配置编辑”“Codemaps”四个核心功能入口，开发者可根据需求选择对应入口（如“代码探索”入口支持上传代码库压缩包，“配置编辑”入口支持直接输入配置文件类型与需求）。

2. 基本操作流程（以“配置编辑”为例）

进入“配置编辑”入口，选择配置文件类型（如Kubernetes Manifest、Nginx Config）；
输入自然语言需求（如“修改Nginx的监听端口为8080，设置静态文件目录为/var/www/html”）；
点击“生成/修改”按钮，SWE-1.5会在5秒内生成配置文件；
如需调整，可直接在“对话框”中补充需求（如“再添加一个反向代理，将/api请求转发到http://backend:3000”），模型会实时更新配置；
确认无误后，点击“下载”按钮获取最终配置文件。

3. 注意事项

beta功能：“Codemaps”当前为beta版本，仅支持“小于50万行代码”的库，且暂不支持C/C++语言，后续会逐步扩展；
任务限制：单次任务的代码生成量上限为1万行（如需更大规模生成，可分步骤提交需求）；
反馈渠道：平台右侧设有“反馈按钮”，开发者可提交“代码质量问题”“功能建议”，团队会根据反馈迭代模型。

六、常见问题解答（FAQ）

1. SWE-1.5与此前发布的SWE-grep有什么区别？

两者定位不同：SWE-grep是“专注快速上下文工程的模型”，核心作用是“快速分析代码上下文、提取关键信息”（如快速定位某函数的调用位置），不具备完整的“代码生成、任务执行”能力；而SWE-1.5是“完整的软件工程Agent模型”，可支撑“代码生成、应用开发、配置编辑”等端到端任务，同时包含SWE-grep的上下文分析能力，且速度更快。

2. 为什么SWE-1.5在不同代理框架下得分差异较大？

得分差异的核心原因是“模型调优针对性”：SWE-1.5的训练与优化主要基于Cascade框架（自定义框架，适配Windsurf平台），而SWE-agent、Claude Code等框架的“工具链、评估规则、任务流程”与Cascade不同——例如，Claude Code框架的工具调用格式与Cascade不同，SWE-1.5在该框架下可能因“工具调用格式错误”导致得分降低。并非框架本身优劣，若将SWE-1.5针对其他框架重新调优，得分也可能提升（如Sonnet在Claude Code中表现优异）。

3. 普通开发者是否需要申请权限才能使用SWE-1.5？

不需要。SWE-1.5当前已在Windsurf平台“默认开放”，开发者只需注册Cognition.ai账号，登录后即可直接选择使用，无需额外提交申请或等待审核。

4. SWE-1.5速度这么快，会不会导致代码错误率上升？

不会。SWE-1.5的“快”是“全链路优化”的结果，而非“牺牲准确性换速度”：其训练依赖“高保真RL环境”（含三大评估机制），确保代码正确性与质量；同时，通过“奖励硬化”流程降低假阳性得分，避免模型生成“看似正确、实际有问题”的代码。官方测试显示，SWE-1.5的代码错误率（如逻辑错误、格式错误）为0.8%，低于Haiku 4.5的1.2%、Sonnet 4.5的1.5%。

七、相关链接

SWE-1.5官方博客：https://cognition.ai/blog/swe-1-5

八、总结

SWE-1.5是Cognition.ai推出的“速度与智能兼顾”的软件工程Agent模型，通过数百亿参数规模实现近SOTA编码性能，同时以950 tok/s的推理速度（较Haiku 4.5快6倍、Sonnet 4.5快13倍）刷新行业标准，现已在Windsurf平台开放使用。该模型的核心价值在于打破“AI编码工具需权衡速度与智能”的痛点——其通过“模型+推理+框架”的统一优化，结合高保真RL编码环境（含三大评估机制）、GB200芯片集群基础设施，以及全链路速度优化技术，确保在高速响应的同时，输出高质量、符合真实场景的代码。当前，SWE-1.5已成为内部工程师的日常工具，可支撑大代码库探索、全栈应用开发、配置快速编辑等任务，典型场景效率提升超75%，为软件工程领域提供了“高速不牺牲质量”的AI解决方案。

打赏

版权及免责申明：本文由@AI工具集原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/swe-1-5.html

THE END

AI工具集

工具不孤岛，AI集大成——这里有你要的一切智能解法

+ 关注

SWE-1.5：Cognition.ai 开源方向软件工程 Agent 模型，兼顾 950 tok/s 高速与近 SOTA 编码性能

文章目录

一、什么是SWE-1.5？

二、SWE-1.5的核心功能特色

1. 速度与性能的双重顶尖

2. 代码质量的主动保障

3. 全栈协同的系统优化

4. 真实场景的深度适配

5. 框架适配的灵活性

三、SWE-1.5的关键技术细节

1. 代理-模型接口：以“完整Agent”为核心的开发逻辑

2. RL编码环境：高保真、全维度的训练与评估体系

（1）解决现有环境的核心痛点

（2）三大核心grading（评估）机制

（3）奖励硬化（Reward Hardening）流程

3. 训练与基础设施：依托前沿硬件与架构

4. 速度优化：从“推理”到“系统”的全链路提速

四、SWE-1.5的典型应用场景

1. 大代码库的深度探索与理解

2. 端到端全栈应用开发

3. 配置文件的快速编辑

五、SWE-1.5的使用方法

1. 访问途径

2. 基本操作流程（以“配置编辑”为例）

3. 注意事项

六、常见问题解答（FAQ）

七、相关链接

八、总结

相关文章