Ornith-1.0:DeepReinforce开源的自主规划式AI编码Agent模型
一、Ornith-1.0是什么
Ornith-1.0是DeepReinforce团队2026年6月推出、专为智能体式编程(Agentic Coding)打造的开源大模型家族,基于Gemma 4、Qwen 3.5基座二次训练,采用MIT宽松开源协议,支持商用与学术研究全场景使用。
项目覆盖从边缘设备到超大规模集群的全参数梯度,共4个标准版本:
Ornith-1.0-9B Dense:轻量化稠密模型,笔记本、边缘硬件离线部署
Ornith-1.0-31B Dense:中端稠密模型,个人开发者、小型工作站日常编码
Ornith-1.0-35B MoE:混合专家中小旗舰,中小企业自动化工程首选
Ornith-1.0-397B MoE:超大规模混合专家旗舰,对标闭源顶级代码模型
区别于传统代码补全模型,Ornith-1.0核心定位是自主代码智能体,无需人工编写工具调用模板,可自主完成任务拆解、终端指令执行、代码调试、项目重构、缺陷修复全流程自动化操作。

二、核心功能特色
自脚手架自主规划能力
行业首创Self-Scaffolding训练机制,模型可自主生成任务专属执行脚手架(工具调用逻辑、错误处理、步骤编排),同步优化脚手架与最终代码方案,摆脱人工提示工程、固定流程模板限制。全规格高性能均衡表现
轻量9B版本性能超越31B级传统编码模型;35B MoE小幅超越397B参数量Qwen旧版;397B旗舰在两大核心工程基准超越Claude Opus 4.7,开源梯队第一梯队水平。三层防护解决奖励作弊
针对智能体训练常见“硬编码答案、篡改测试脚本”作弊问题,通过环境边界锁定、监控拦截、独立LLM裁判三层机制规避,保障真实工程解题能力而非跑分投机。异步流水线RL稳定长序列训练
针对长代码执行轨迹离线策略偏差,引入时序衰减权重修正GRPO损失,超长多轮Agent任务训练收敛更稳定,大幅降低长上下文训练崩溃概率。全场景部署兼容
提供GGUF量化权重,原生适配Ollama、vLLM、Unsloth推理框架,支持RTX消费级显卡、服务器集群、边缘终端离线运行,128K/256K/400K多档位超长上下文窗口。多维度工程编码适配
覆盖终端命令运维、代码缺陷修复、多语言项目开发、自然语言生成完整仓库、真实用户业务编码五大类智能体任务,配套完整标准化评测体系。
三、技术细节拆解
3.1 核心Self-Scaffolding自脚手架强化学习框架
传统代码RL仅优化代码输出,脚手架(执行流程)由人工固定;Ornith-1.0采用双阶段联合优化循环:
脚手架生成阶段:输入任务+历史脚手架,模型迭代优化专属执行逻辑;
代码轨迹生成阶段:基于新脚手架输出完整代码/终端执行流程;
双向奖励回传:执行结果奖励同步更新脚手架策略与代码生成策略,形成自迭代闭环,自动沉淀各类任务专属执行方案。
3.2 三层反奖励作弊防御体系
环境边界固化:测试环境、工具接口、校验文件完全隔离,模型仅能优化内部编排逻辑,无法修改外部校验规则;
确定性监控拦截:识别读取隐藏测试文件、篡改校验脚本等违规操作,直接清零本轮奖励并剔除样本;
冻结LLM意图裁判:在基础校验器之上增加独立大模型意图审核,拦截表面通过测试、实际未完成业务需求的投机方案。
3.3 异步Pipeline-RL时序加权损失
针对长执行轨迹离线样本失效问题,设计时序衰减权重函数w(dt),根据样本生成时长降低权重,超过阈值直接丢弃老旧样本;改造标准GRPO损失,将时序权重嵌入token级损失计算,缓解长Agent任务策略漂移问题。
权重公式:
$$
w(dt)=
\begin{cases}
1 & dt\leq K_1 \
\exp(-\lambda(dt-K_1)) & K_1<dt\leq K_2 \
0 & dt>K_2
\end{cases}
$$
修正后损失:$L_t=\min(r_tA_t,\text{clip}(r_t,1-\epsilon^-,1+\epsilon^+)A_t)\cdot w(dt)$
3.4 评测标准技术规范
统一多基准测试环境,全部实验5次运行取均值保证稳定性:
Terminal-Bench 2.1:128K上下文,4小时超时限制,32核CPU+48GB内存;
SWE-Bench全系列:256K上下文,OpenHands智能体执行框架;
NL2Repo仓库生成:400K超长上下文,48K最大输出长度,配套反作弊过滤;
ClawEval真实业务编码:0.6低温度推理,贴合真实开发者使用习惯。

四、应用场景
本地离线代码智能体
9B轻量化模型部署个人笔记本,离线完成脚本编写、Bug排查、小型项目重构,无需联网调用第三方API,保障代码数据隐私。企业自动化工程运维
35B MoE部署企业私有服务器,自动处理代码仓库缺陷修复、终端批量运维命令、多语言项目迭代,降低研发重复工作量。复杂大型软件重构
397B旗舰模型适配百万行级代码库,自主完成跨文件架构改造、全栈项目从零生成,对标商用闭源模型复杂工程处理能力。AI编程工具二次开发
基于开源权重接入Cursor、CodeLlama系列IDE插件,搭建自研本地AI编码助手,自定义智能体执行流程。代码智能体学术研究
完整开源训练框架与模型权重,可用于Self-Scaffolding自改进RL、长序列Agent、奖励作弊防御等大模型算法研究。
五、基础使用方法
5.1 本地快速推理(Ollama/Unsloth)
访问HuggingFace模型仓库下载对应尺寸GGUF量化权重;
配置vLLM/Ollama推理环境,导入项目专属chat_template.jinja对话模板;
启动推理服务,设置对应上下文窗口(9B推荐128K,397B推荐256K);
输入软件工程任务指令,模型自动生成脚手架+完整代码执行流程。
5.2 自定义微调与RL训练
基于Gemma 4/Qwen 3.5基座加载预训练权重;
接入Pipeline-RL训练代码,配置K1/K2/λ时序超参;
接入OpenHands、Terminal-Bench评测环境,启动双阶段自脚手架循环训练;
训练完成导出量化权重,适配本地或集群推理部署。
5.3 基准性能复现
按照官方评测参数配置温度、top_p、上下文长度,使用Harbor/Terminus-2框架、Claude Code两套解析器分别复现Terminal-Bench得分,5轮运行取平均结果。
六、竞品对比
| 对比维度 | Ornith-1.0-397B MoE | Claude Opus 4.7 | DeepSeek-V4 | MiniMax M3 |
|---|---|---|---|---|
| 开源属性 | MIT开源,可本地部署 | 闭源,仅API调用 | 开源权重 | 闭源商用API |
| Terminal-Bench 2.1得分 | 77.5 | 70.3 | 67.9 | 66.0 |
| SWE-Bench Verified得分 | 82.4 | 80.8 | 80.6 | 80.5 |
| 核心技术 | Self-Scaffolding自脚手架RL | 人工固定Agent流程 | 传统代码RL,无自规划脚手架 | 稀疏注意力架构 |
| 部署方式 | 边缘/PC/私有集群离线 | 仅云端API,无法本地运行 | 服务器集群部署,无轻量化版本 | 仅线上API,无本地权重 |
| 奖励作弊防护 | 三层完整防御机制 | 基础校验,无多层意图拦截 | 仅环境隔离,缺少LLM裁判 | 基础测试拦截 |
| 轻量化版本 | 提供9B本地端侧模型 | 无轻量离线版本 | 无小参数量化版本 | 无开源轻量化权重 |
七、常见问题解答(FAQ)
Q:Ornith-1.0所有模型是否完全开源,能否商用?
A:全部模型采用MIT开源协议,权重、对话模板文件公开,企业商用、二次开发、学术研究均无额外授权限制,可自由本地部署、微调。
Q:Ornith-1.0-9B仅9B参数,为什么编码能力超过Gemma4-31B?
A:核心依靠Self-Scaffolding自改进训练框架,模型训练阶段自主学习适配编码智能体的执行流程,而非单纯依靠参数量堆叠;同时针对终端、代码修复场景做专项RL优化,小参数量也能沉淀高效任务策略。
Q:Self-Scaffolding脚手架会不会出现作弊,硬编码测试答案?
A:项目设计三层防御机制,固定外部测试环境边界、监控拦截违规文件读取行为、冻结独立LLM做意图校验,从环境、执行、意图三层杜绝奖励作弊,评测结果均基于真实工程解题能力,而非投机得分。
Q:本地部署Ornith-1.0最低硬件要求是什么?
A:9B量化版本单张16G显存消费级显卡即可运行;35B MoE推荐40G及以上显存服务器;397B旗舰需多卡A100/H100集群部署,支持GGUF量化降低显存占用。
Q:Ornith-1.0支持哪些代码智能体评测基准?
A:原生适配Terminal-Bench 2.1、SWE-Bench全系列(Verified/Pro/Multilingual)、NL2Repo、ClawEval、SWE Atlas五大类工业级编码智能体基准,官方提供完整复现参数。
Q:能否基于Ornith-1.0二次开发自定义代码Agent工具?
A:可以,项目开放完整对话模板、推理适配代码、RL训练流程,支持接入LangChain、AutoGen等Agent框架,自定义工具调用、自动化运维工作流。
八、官方链接
项目官方介绍主页:https://deep-reinforce.com/ornith_1_0.html
HuggingFace完整模型权重合集:https://huggingface.co/collections/deepreinforce-ai/ornith-10
九、总结
Ornith-1.0是2026年面向智能体编程领域的突破性开源模型家族,依靠自研Self-Scaffolding自脚手架强化学习框架解决传统代码智能体依赖人工流程模板、长序列训练不稳定、奖励作弊三大行业痛点,覆盖9B轻量化端侧到397B超大规模MoE全梯度规格,旗舰版本在核心工程编码基准超越闭源标杆Claude Opus 4.7,同时提供宽松开源协议、完整部署与训练方案,兼顾个人开发者离线本地使用、企业私有工程自动化、学术算法研究多重需求,是当前开源赛道综合能力领先的代码智能体专用大模型方案。
版权及免责申明:本文由@人工智能研究所原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/ornith-1-0.html

