Ornith-1.0：DeepReinforce开源的自主规划式AI编码Agent模型

原创发布日期：2026-06-30

一、Ornith-1.0是什么

Ornith-1.0是DeepReinforce团队2026年6月推出、专为智能体式编程（Agentic Coding）打造的开源大模型家族，基于Gemma 4、Qwen 3.5基座二次训练，采用MIT宽松开源协议，支持商用与学术研究全场景使用。

项目覆盖从边缘设备到超大规模集群的全参数梯度，共4个标准版本：

Ornith-1.0-9B Dense：轻量化稠密模型，笔记本、边缘硬件离线部署
Ornith-1.0-31B Dense：中端稠密模型，个人开发者、小型工作站日常编码
Ornith-1.0-35B MoE：混合专家中小旗舰，中小企业自动化工程首选
Ornith-1.0-397B MoE：超大规模混合专家旗舰，对标闭源顶级代码模型

区别于传统代码补全模型，Ornith-1.0核心定位是自主代码智能体，无需人工编写工具调用模板，可自主完成任务拆解、终端指令执行、代码调试、项目重构、缺陷修复全流程自动化操作。

Ornith-1.0：DeepReinforce开源的自主规划式AI编码Agent模型

二、核心功能特色

自脚手架自主规划能力
行业首创Self-Scaffolding训练机制，模型可自主生成任务专属执行脚手架（工具调用逻辑、错误处理、步骤编排），同步优化脚手架与最终代码方案，摆脱人工提示工程、固定流程模板限制。
全规格高性能均衡表现
轻量9B版本性能超越31B级传统编码模型；35B MoE小幅超越397B参数量Qwen旧版；397B旗舰在两大核心工程基准超越Claude Opus 4.7，开源梯队第一梯队水平。
三层防护解决奖励作弊
针对智能体训练常见“硬编码答案、篡改测试脚本”作弊问题，通过环境边界锁定、监控拦截、独立LLM裁判三层机制规避，保障真实工程解题能力而非跑分投机。
异步流水线RL稳定长序列训练
针对长代码执行轨迹离线策略偏差，引入时序衰减权重修正GRPO损失，超长多轮Agent任务训练收敛更稳定，大幅降低长上下文训练崩溃概率。
全场景部署兼容
提供GGUF量化权重，原生适配Ollama、vLLM、Unsloth推理框架，支持RTX消费级显卡、服务器集群、边缘终端离线运行，128K/256K/400K多档位超长上下文窗口。
多维度工程编码适配
覆盖终端命令运维、代码缺陷修复、多语言项目开发、自然语言生成完整仓库、真实用户业务编码五大类智能体任务，配套完整标准化评测体系。

三、技术细节拆解

3.1 核心Self-Scaffolding自脚手架强化学习框架

传统代码RL仅优化代码输出，脚手架（执行流程）由人工固定；Ornith-1.0采用双阶段联合优化循环：

脚手架生成阶段：输入任务+历史脚手架，模型迭代优化专属执行逻辑；
代码轨迹生成阶段：基于新脚手架输出完整代码/终端执行流程；
双向奖励回传：执行结果奖励同步更新脚手架策略与代码生成策略，形成自迭代闭环，自动沉淀各类任务专属执行方案。

3.2 三层反奖励作弊防御体系

环境边界固化：测试环境、工具接口、校验文件完全隔离，模型仅能优化内部编排逻辑，无法修改外部校验规则；
确定性监控拦截：识别读取隐藏测试文件、篡改校验脚本等违规操作，直接清零本轮奖励并剔除样本；
冻结LLM意图裁判：在基础校验器之上增加独立大模型意图审核，拦截表面通过测试、实际未完成业务需求的投机方案。

3.3 异步Pipeline-RL时序加权损失

针对长执行轨迹离线样本失效问题，设计时序衰减权重函数w(dt)，根据样本生成时长降低权重，超过阈值直接丢弃老旧样本；改造标准GRPO损失，将时序权重嵌入token级损失计算，缓解长Agent任务策略漂移问题。
权重公式：
$$
w(dt)=
\begin{cases}
1 & dt\leq K_1 \
\exp(-\lambda(dt-K_1)) & K_1<dt\leq K_2 \
0 & dt>K_2
\end{cases}
$$
修正后损失：$L_t=\min(r_tA_t,\text{clip}(r_t,1-\epsilon^-,1+\epsilon^+)A_t)\cdot w(dt)$

3.4 评测标准技术规范

统一多基准测试环境，全部实验5次运行取均值保证稳定性：

Terminal-Bench 2.1：128K上下文，4小时超时限制，32核CPU+48GB内存；
SWE-Bench全系列：256K上下文，OpenHands智能体执行框架；
NL2Repo仓库生成：400K超长上下文，48K最大输出长度，配套反作弊过滤；
ClawEval真实业务编码：0.6低温度推理，贴合真实开发者使用习惯。

Ornith-1.0：DeepReinforce开源的自主规划式AI编码Agent模型

四、应用场景

本地离线代码智能体
9B轻量化模型部署个人笔记本，离线完成脚本编写、Bug排查、小型项目重构，无需联网调用第三方API，保障代码数据隐私。
企业自动化工程运维
35B MoE部署企业私有服务器，自动处理代码仓库缺陷修复、终端批量运维命令、多语言项目迭代，降低研发重复工作量。
复杂大型软件重构
397B旗舰模型适配百万行级代码库，自主完成跨文件架构改造、全栈项目从零生成，对标商用闭源模型复杂工程处理能力。
AI编程工具二次开发
基于开源权重接入Cursor、CodeLlama系列IDE插件，搭建自研本地AI编码助手，自定义智能体执行流程。
代码智能体学术研究
完整开源训练框架与模型权重，可用于Self-Scaffolding自改进RL、长序列Agent、奖励作弊防御等大模型算法研究。

五、基础使用方法

5.1 本地快速推理（Ollama/Unsloth）

访问HuggingFace模型仓库下载对应尺寸GGUF量化权重；
配置vLLM/Ollama推理环境，导入项目专属chat_template.jinja对话模板；
启动推理服务，设置对应上下文窗口（9B推荐128K，397B推荐256K）；
输入软件工程任务指令，模型自动生成脚手架+完整代码执行流程。

5.2 自定义微调与RL训练

基于Gemma 4/Qwen 3.5基座加载预训练权重；
接入Pipeline-RL训练代码，配置K1/K2/λ时序超参；
接入OpenHands、Terminal-Bench评测环境，启动双阶段自脚手架循环训练；
训练完成导出量化权重，适配本地或集群推理部署。

5.3 基准性能复现

按照官方评测参数配置温度、top_p、上下文长度，使用Harbor/Terminus-2框架、Claude Code两套解析器分别复现Terminal-Bench得分，5轮运行取平均结果。

六、竞品对比

对比维度	Ornith-1.0-397B MoE	Claude Opus 4.7	DeepSeek-V4	MiniMax M3
开源属性	MIT开源，可本地部署	闭源，仅API调用	开源权重	闭源商用API
Terminal-Bench 2.1得分	77.5	70.3	67.9	66.0
SWE-Bench Verified得分	82.4	80.8	80.6	80.5
核心技术	Self-Scaffolding自脚手架RL	人工固定Agent流程	传统代码RL，无自规划脚手架	稀疏注意力架构
部署方式	边缘/PC/私有集群离线	仅云端API，无法本地运行	服务器集群部署，无轻量化版本	仅线上API，无本地权重
奖励作弊防护	三层完整防御机制	基础校验，无多层意图拦截	仅环境隔离，缺少LLM裁判	基础测试拦截
轻量化版本	提供9B本地端侧模型	无轻量离线版本	无小参数量化版本	无开源轻量化权重

七、常见问题解答（FAQ）

Q：Ornith-1.0所有模型是否完全开源，能否商用？

A：全部模型采用MIT开源协议，权重、对话模板文件公开，企业商用、二次开发、学术研究均无额外授权限制，可自由本地部署、微调。

Q：Ornith-1.0-9B仅9B参数，为什么编码能力超过Gemma4-31B？

A：核心依靠Self-Scaffolding自改进训练框架，模型训练阶段自主学习适配编码智能体的执行流程，而非单纯依靠参数量堆叠；同时针对终端、代码修复场景做专项RL优化，小参数量也能沉淀高效任务策略。

Q：Self-Scaffolding脚手架会不会出现作弊，硬编码测试答案？

A：项目设计三层防御机制，固定外部测试环境边界、监控拦截违规文件读取行为、冻结独立LLM做意图校验，从环境、执行、意图三层杜绝奖励作弊，评测结果均基于真实工程解题能力，而非投机得分。

Q：本地部署Ornith-1.0最低硬件要求是什么？

A：9B量化版本单张16G显存消费级显卡即可运行；35B MoE推荐40G及以上显存服务器；397B旗舰需多卡A100/H100集群部署，支持GGUF量化降低显存占用。

Q：Ornith-1.0支持哪些代码智能体评测基准？

A：原生适配Terminal-Bench 2.1、SWE-Bench全系列（Verified/Pro/Multilingual）、NL2Repo、ClawEval、SWE Atlas五大类工业级编码智能体基准，官方提供完整复现参数。

Q：能否基于Ornith-1.0二次开发自定义代码Agent工具？

A：可以，项目开放完整对话模板、推理适配代码、RL训练流程，支持接入LangChain、AutoGen等Agent框架，自定义工具调用、自动化运维工作流。

八、官方链接

项目官方介绍主页：https://deep-reinforce.com/ornith_1_0.html
HuggingFace完整模型权重合集：https://huggingface.co/collections/deepreinforce-ai/ornith-10

九、总结

Ornith-1.0是2026年面向智能体编程领域的突破性开源模型家族，依靠自研Self-Scaffolding自脚手架强化学习框架解决传统代码智能体依赖人工流程模板、长序列训练不稳定、奖励作弊三大行业痛点，覆盖9B轻量化端侧到397B超大规模MoE全梯度规格，旗舰版本在核心工程编码基准超越闭源标杆Claude Opus 4.7，同时提供宽松开源协议、完整部署与训练方案，兼顾个人开发者离线本地使用、企业私有工程自动化、学术算法研究多重需求，是当前开源赛道综合能力领先的代码智能体专用大模型方案。