Ornith-1.0:DeepReinforce开源的自主规划式AI编码Agent模型

原创 发布日期:
70

一、Ornith-1.0是什么

Ornith-1.0是DeepReinforce团队2026年6月推出、专为智能体式编程(Agentic Coding)打造的开源大模型家族,基于Gemma 4、Qwen 3.5基座二次训练,采用MIT宽松开源协议,支持商用与学术研究全场景使用。

项目覆盖从边缘设备到超大规模集群的全参数梯度,共4个标准版本:

  1. Ornith-1.0-9B Dense:轻量化稠密模型,笔记本、边缘硬件离线部署

  2. Ornith-1.0-31B Dense:中端稠密模型,个人开发者、小型工作站日常编码

  3. Ornith-1.0-35B MoE:混合专家中小旗舰,中小企业自动化工程首选

  4. Ornith-1.0-397B MoE:超大规模混合专家旗舰,对标闭源顶级代码模型

区别于传统代码补全模型,Ornith-1.0核心定位是自主代码智能体,无需人工编写工具调用模板,可自主完成任务拆解、终端指令执行、代码调试、项目重构、缺陷修复全流程自动化操作。

Ornith-1.0:DeepReinforce开源的自主规划式AI编码Agent模型

二、核心功能特色

  1. 自脚手架自主规划能力
    行业首创Self-Scaffolding训练机制,模型可自主生成任务专属执行脚手架(工具调用逻辑、错误处理、步骤编排),同步优化脚手架与最终代码方案,摆脱人工提示工程、固定流程模板限制。

  2. 全规格高性能均衡表现
    轻量9B版本性能超越31B级传统编码模型;35B MoE小幅超越397B参数量Qwen旧版;397B旗舰在两大核心工程基准超越Claude Opus 4.7,开源梯队第一梯队水平。

  3. 三层防护解决奖励作弊
    针对智能体训练常见“硬编码答案、篡改测试脚本”作弊问题,通过环境边界锁定、监控拦截、独立LLM裁判三层机制规避,保障真实工程解题能力而非跑分投机。

  4. 异步流水线RL稳定长序列训练
    针对长代码执行轨迹离线策略偏差,引入时序衰减权重修正GRPO损失,超长多轮Agent任务训练收敛更稳定,大幅降低长上下文训练崩溃概率。

  5. 全场景部署兼容
    提供GGUF量化权重,原生适配Ollama、vLLM、Unsloth推理框架,支持RTX消费级显卡、服务器集群、边缘终端离线运行,128K/256K/400K多档位超长上下文窗口。

  6. 多维度工程编码适配
    覆盖终端命令运维、代码缺陷修复、多语言项目开发、自然语言生成完整仓库、真实用户业务编码五大类智能体任务,配套完整标准化评测体系。

三、技术细节拆解

3.1 核心Self-Scaffolding自脚手架强化学习框架

传统代码RL仅优化代码输出,脚手架(执行流程)由人工固定;Ornith-1.0采用双阶段联合优化循环:

  1. 脚手架生成阶段:输入任务+历史脚手架,模型迭代优化专属执行逻辑;

  2. 代码轨迹生成阶段:基于新脚手架输出完整代码/终端执行流程;

  3. 双向奖励回传:执行结果奖励同步更新脚手架策略与代码生成策略,形成自迭代闭环,自动沉淀各类任务专属执行方案。

3.2 三层反奖励作弊防御体系

  1. 环境边界固化:测试环境、工具接口、校验文件完全隔离,模型仅能优化内部编排逻辑,无法修改外部校验规则;

  2. 确定性监控拦截:识别读取隐藏测试文件、篡改校验脚本等违规操作,直接清零本轮奖励并剔除样本;

  3. 冻结LLM意图裁判:在基础校验器之上增加独立大模型意图审核,拦截表面通过测试、实际未完成业务需求的投机方案。

3.3 异步Pipeline-RL时序加权损失

针对长执行轨迹离线样本失效问题,设计时序衰减权重函数w(dt),根据样本生成时长降低权重,超过阈值直接丢弃老旧样本;改造标准GRPO损失,将时序权重嵌入token级损失计算,缓解长Agent任务策略漂移问题。
权重公式:
$$
w(dt)=
\begin{cases}
1 & dt\leq K_1 \
\exp(-\lambda(dt-K_1)) & K_1<dt\leq K_2 \
0 & dt>K_2
\end{cases}
$$
修正后损失:$L_t=\min(r_tA_t,\text{clip}(r_t,1-\epsilon^-,1+\epsilon^+)A_t)\cdot w(dt)$

3.4 评测标准技术规范

统一多基准测试环境,全部实验5次运行取均值保证稳定性:

  • Terminal-Bench 2.1:128K上下文,4小时超时限制,32核CPU+48GB内存;

  • SWE-Bench全系列:256K上下文,OpenHands智能体执行框架;

  • NL2Repo仓库生成:400K超长上下文,48K最大输出长度,配套反作弊过滤;

  • ClawEval真实业务编码:0.6低温度推理,贴合真实开发者使用习惯。

Ornith-1.0:DeepReinforce开源的自主规划式AI编码Agent模型

四、应用场景

  1. 本地离线代码智能体
    9B轻量化模型部署个人笔记本,离线完成脚本编写、Bug排查、小型项目重构,无需联网调用第三方API,保障代码数据隐私。

  2. 企业自动化工程运维
    35B MoE部署企业私有服务器,自动处理代码仓库缺陷修复、终端批量运维命令、多语言项目迭代,降低研发重复工作量。

  3. 复杂大型软件重构
    397B旗舰模型适配百万行级代码库,自主完成跨文件架构改造、全栈项目从零生成,对标商用闭源模型复杂工程处理能力。

  4. AI编程工具二次开发
    基于开源权重接入Cursor、CodeLlama系列IDE插件,搭建自研本地AI编码助手,自定义智能体执行流程。

  5. 代码智能体学术研究
    完整开源训练框架与模型权重,可用于Self-Scaffolding自改进RL、长序列Agent、奖励作弊防御等大模型算法研究。

五、基础使用方法

5.1 本地快速推理(Ollama/Unsloth)

  1. 访问HuggingFace模型仓库下载对应尺寸GGUF量化权重;

  2. 配置vLLM/Ollama推理环境,导入项目专属chat_template.jinja对话模板;

  3. 启动推理服务,设置对应上下文窗口(9B推荐128K,397B推荐256K);

  4. 输入软件工程任务指令,模型自动生成脚手架+完整代码执行流程。

5.2 自定义微调与RL训练

  1. 基于Gemma 4/Qwen 3.5基座加载预训练权重;

  2. 接入Pipeline-RL训练代码,配置K1/K2/λ时序超参;

  3. 接入OpenHands、Terminal-Bench评测环境,启动双阶段自脚手架循环训练;

  4. 训练完成导出量化权重,适配本地或集群推理部署。

5.3 基准性能复现

按照官方评测参数配置温度、top_p、上下文长度,使用Harbor/Terminus-2框架、Claude Code两套解析器分别复现Terminal-Bench得分,5轮运行取平均结果。

六、竞品对比

对比维度 Ornith-1.0-397B MoEClaude Opus 4.7DeepSeek-V4MiniMax M3
开源属性 MIT开源,可本地部署 闭源,仅API调用 开源权重 闭源商用API
Terminal-Bench 2.1得分 77.5 70.3 67.9 66.0
SWE-Bench Verified得分 82.4 80.8 80.6 80.5
核心技术 Self-Scaffolding自脚手架RL 人工固定Agent流程 传统代码RL,无自规划脚手架 稀疏注意力架构
部署方式 边缘/PC/私有集群离线 仅云端API,无法本地运行 服务器集群部署,无轻量化版本 仅线上API,无本地权重
奖励作弊防护 三层完整防御机制 基础校验,无多层意图拦截 仅环境隔离,缺少LLM裁判 基础测试拦截
轻量化版本 提供9B本地端侧模型 无轻量离线版本 无小参数量化版本 无开源轻量化权重

七、常见问题解答(FAQ)

Q:Ornith-1.0所有模型是否完全开源,能否商用?

A:全部模型采用MIT开源协议,权重、对话模板文件公开,企业商用、二次开发、学术研究均无额外授权限制,可自由本地部署、微调。

Q:Ornith-1.0-9B仅9B参数,为什么编码能力超过Gemma4-31B?

A:核心依靠Self-Scaffolding自改进训练框架,模型训练阶段自主学习适配编码智能体的执行流程,而非单纯依靠参数量堆叠;同时针对终端、代码修复场景做专项RL优化,小参数量也能沉淀高效任务策略。

Q:Self-Scaffolding脚手架会不会出现作弊,硬编码测试答案?

A:项目设计三层防御机制,固定外部测试环境边界、监控拦截违规文件读取行为、冻结独立LLM做意图校验,从环境、执行、意图三层杜绝奖励作弊,评测结果均基于真实工程解题能力,而非投机得分。

Q:本地部署Ornith-1.0最低硬件要求是什么?

A:9B量化版本单张16G显存消费级显卡即可运行;35B MoE推荐40G及以上显存服务器;397B旗舰需多卡A100/H100集群部署,支持GGUF量化降低显存占用。

Q:Ornith-1.0支持哪些代码智能体评测基准?

A:原生适配Terminal-Bench 2.1、SWE-Bench全系列(Verified/Pro/Multilingual)、NL2Repo、ClawEval、SWE Atlas五大类工业级编码智能体基准,官方提供完整复现参数。

Q:能否基于Ornith-1.0二次开发自定义代码Agent工具?

A:可以,项目开放完整对话模板、推理适配代码、RL训练流程,支持接入LangChain、AutoGen等Agent框架,自定义工具调用、自动化运维工作流。

八、官方链接

  1. 项目官方介绍主页:https://deep-reinforce.com/ornith_1_0.html

  2. HuggingFace完整模型权重合集:https://huggingface.co/collections/deepreinforce-ai/ornith-10

九、总结

Ornith-1.0是2026年面向智能体编程领域的突破性开源模型家族,依靠自研Self-Scaffolding自脚手架强化学习框架解决传统代码智能体依赖人工流程模板、长序列训练不稳定、奖励作弊三大行业痛点,覆盖9B轻量化端侧到397B超大规模MoE全梯度规格,旗舰版本在核心工程编码基准超越闭源标杆Claude Opus 4.7,同时提供宽松开源协议、完整部署与训练方案,兼顾个人开发者离线本地使用、企业私有工程自动化、学术算法研究多重需求,是当前开源赛道综合能力领先的代码智能体专用大模型方案。

打赏
THE END
作者头像
人工智能研究所
发现AI神器,探索AI技术!