Ouro:开源预训练循环语言模型(Looped LLM),小参数量匹敌大模型性能

原创 发布日期:
3

一、Ouro 是什么?

Ouro 是由 ByteDance Seed、UC Santa Cruz、Princeton University 等多机构联合研发的开源循环语言模型(Looped Language Models)系列,核心创新在于将“推理能力”融入预训练阶段,而非依赖传统大语言模型(LLM)的 post-training 显式文本生成(如思维链)。该系列包含 Ouro-1.4B、Ouro-2.6B 基础模型及 Ouro-1.4B-Thinking、Ouro-2.6B-Thinking 推理优化变体,通过参数共享循环架构、latent 空间迭代计算、熵正则化自适应计算等技术,在 7.7T tokens 预训练数据支撑下,实现 2-3 倍参数效率提升——Ouro-1.4B 可匹配 4B 级标准 LLM 性能,Ouro-2.6B 能匹敌 8B 级标准 LLM,部分场景达 12B SOTA 模型水平。

传统 LLM 通常通过“显式文本生成”(如 chain-of-thought 思维链)在训练后实现推理,而 Ouro 直接将“推理能力”构建到预训练阶段,通过三大核心设计达成这一目标:① 在 latent 空间(模型内部抽象计算空间,不直接输出文本)进行迭代计算;② 采用熵正则化目标实现“学习式深度分配”(按输入难度动态调整计算步骤);③ 基于 7.7T 海量 tokens 完成预训练,夯实推理基础。

目前 Ouro 已推出 4 类模型变体,覆盖不同参数量与推理需求:

  • 基础版:Ouro-1.4B(14 亿参数)、Ouro-2.6B(26 亿参数)

  • 推理优化版:Ouro-1.4B-Thinking、Ouro-2.6B-Thinking(通过“推理监督微调(Reasoning SFT)”强化专项推理能力)

从定位来看,Ouro 并非追求“更大参数量”,而是以“参数效率”为核心,旨在数据受限的时代,让小参数量模型具备大模型级别的推理性能,降低 LLM 应用的算力与数据门槛。

二、Ouro 的核心功能特色

Ouro 区别于传统 LLM 的核心优势集中在“架构创新”“参数效率”“推理能力”“计算自适应”四大维度,具体功能特色如下:

1. 循环架构(Looped Architecture):用“迭代计算”替代“参数堆砌”

传统 LLM 依赖增加 Transformer 层数(如从 24 层增至 48 层)提升推理深度,这会导致参数量成比例增长;而 Ouro 采用参数共享的循环架构——相同的 Transformer 块被“递归调用”,通过在 latent 空间反复迭代计算,实现“更深推理”但不额外增加参数量。

目前 Ouro 系列模型默认使用 4 个递归步骤(R4),即同一组 Transformer 块会对输入数据进行 4 轮迭代处理。这种设计的核心好处是:在参数量固定的情况下,推理深度可通过调整递归步骤灵活控制,避免了“为提升推理能力必须翻倍参数量”的困境。

2. 卓越参数效率:小参数量匹敌大模型,2-3 倍效率提升

通过 7.7T tokens 预训练与循环架构优化,Ouro 展现出远超传统 LLM 的参数效率。官方通过多类基准测试(如 ARC-C、BBH、MMLU、GSM8K 等)验证,其参数效率提升具体表现如下表:

Ouro 模型 参数量 匹敌的标准 LLM 参数量 覆盖基准类型 参数效率提升倍数
Ouro-1.4B 1.4B 4B(如 Gemma3 4B、Qwen3 4B) ARC-C、BBH、MMLU 等 约 2.8 倍
Ouro-2.6B 2.6B 8B(如 Qwen3 8B)、部分超 12B(如 Gemma3 12B) Hellaswag、MBPP+ 等 约 3 倍

例如,在“多任务语言理解基准(MMLU)”中,Ouro-1.4B 得分为 39.5,与 Gemma3 4B(37.9)基本持平;在“代码生成基准(MBPP+)”中,Ouro-2.6B 虽未直接给出分数,但官方验证其性能可匹配 Qwen3 8B(53.0),而参数量仅为后者的 1/3。这种效率优势意味着:在相同算力条件下,Ouro 能以更低资源消耗实现同等甚至更优的推理性能。

3. superior 知识操纵能力:不拼“存储”,拼“运用”

传统 LLM 性能提升常被误解为“知识存储量增加”(即通过更多数据记住更多事实),但 Ouro 的优势源于知识操纵能力——即在需要“事实组合”“多跳推理”的任务中,更高效地调用已学知识解决问题。

官方通过“合成任务对照实验”验证了这一点:设计两组任务,一组仅需“回忆事实”(如“巴黎是哪个国家的首都”),另一组需“组合事实+多跳推理”(如“巴黎的人口比伦敦少,伦敦人口比纽约多,巴黎和纽约哪个城市人口多”)。结果显示:

  • 在“回忆事实”任务中,Ouro 与同参数量传统 LLM 性能接近;

  • 在“组合+多跳”任务中,Ouro 性能比同参数量传统 LLM 高出 15%-25%,证明其核心优势是“运用知识”而非“存储知识”。

这种能力对“逻辑推理”“复杂问答”“数学计算”等场景至关重要,也是 Ouro 能在小参数量下实现深度推理的核心原因。

4. 熵正则化自适应计算:“智能分配”计算资源

传统 LLM 对所有输入都采用相同的计算深度(如固定 24 层 Transformer),导致“简单任务浪费算力”(如判断“1+1=2”仍需跑完全部层数)、“复杂任务算力不足”(如解微积分仅用 24 层计算不充分)。

Ouro 创新引入熵正则化训练目标,实现“动态深度分配”:模型会根据输入的“复杂度”自动调整递归步骤(即计算深度)。具体逻辑是:

  • 简单输入(如短文本分类、基础问答):模型通过“退出门(Exit Gate Head)”判断,在 1-2 个递归步骤后即可退出计算,节省算力;

  • 复杂输入(如多跳推理、长文本分析、数学证明):模型自动增加递归步骤(最多可到 R4 或更高),确保计算深度匹配任务难度。

这种设计既避免了算力浪费,又保证了复杂任务的推理精度,尤其适合“输入难度波动大”的实际应用场景(如客服对话、文档分析等)。

三、Ouro 的技术细节

Ouro 的性能优势源于底层技术设计,核心技术细节可分为“架构原理”“训练流程”“推理机制”三大模块,以下展开说明:

1. 核心架构原理:循环结构与 latent 推理的实现

Ouro 的架构核心是“参数共享循环+latent 空间迭代”,具体实现流程如下:

  1. 输入嵌入(Input Embedding):将文本输入转换为模型可处理的向量表示;

  2. 循环计算(Looped Computation):嵌入后的向量进入“共享 Transformer 块”,完成第 1 轮计算(R1);

  3. latent 空间迭代:第 1 轮计算的输出(latent 向量,不输出文本)重新输入“共享 Transformer 块”,进行第 2 轮计算(R2);

  4. 动态退出判断:每轮计算后,“退出门(Exit Gate Head)”会根据当前 latent 向量的“不确定性”(用熵值衡量)判断是否退出:若熵值低(表示模型已确定结果),则输出结果;若熵值高(表示模型仍需进一步计算),则继续迭代(直至 R4 或达到预设上限);

  5. 结果输出:退出后,latent 向量通过输出层转换为文本结果(如回答、代码、推理步骤)。

与传统 LLM 相比,这种架构的关键差异是“推理在 latent 空间完成”——传统 LLM 每一层都可能输出中间文本(如思维链步骤),而 Ouro 仅在最终退出时输出结果,中间计算完全在 latent 空间进行,这使得推理过程更“紧凑”且“忠实”(减少中间文本生成的冗余或错误)。

2. 训练 Pipeline:7.7T tokens 的多阶段精细化训练

Ouro 的训练并非“单一阶段海量数据输入”,而是设计为8 个阶段的精细化流程,总计使用 7.7T tokens 训练数据(约为传统 10B 模型训练数据量的 1.5 倍),各阶段目标明确、层层递进,具体如下表:

训练阶段 数据量 核心目标 关键作用
1. Warmup(热身阶段) -(无固定量) 初始化模型参数,让模型适应基本文本分布(如词频、语法结构) 避免初始训练时参数震荡,为后续阶段奠定基础
2. Stable Training Phase 1 3T tokens 使用“标准预训练数据”(如 BooksCorpus、Common Crawl 等)训练,构建基础语言能力 让模型掌握词汇、语法、基础事实,形成初步语言理解能力
3. Model Branching(模型分支) - 通过“参数上采样(upcycling)”技术,从基础模型衍生出 Ouro-1.4B 和 Ouro-2.6B 两个变体 同时支持不同参数量需求,后续针对两个变体同步优化
4. Stable Training Phase 2 3T tokens 对 1.4B 和 2.6B 变体同步训练,补充“多样化预训练数据”(如专业文档、代码库) 提升模型在专业领域(如技术文档、代码)的理解能力
5. CT Annealing(思维链退火) 1.4T tokens 逐步引入“思维链数据”(如带推理步骤的问答、数学解题过程),并通过“退火”调整训练强度 让模型逐步适应“推理式训练”,避免直接输入思维链导致的过拟合
6. LongCT(长上下文思维链) 20B tokens 使用“长上下文思维链数据”(如 1000 字以上文档的推理分析)训练 强化模型对长文本的推理能力,解决传统 LLM 长上下文性能衰减问题
7. Mid-Training(中期训练) 300B tokens 针对前 6 阶段暴露的“能力短板”(如低资源语言、复杂数学),使用“靶向数据”训练 弥补模型弱点,提升全场景适应性
8. Reasoning SFT(推理监督微调) - 对“Thinking 变体”(1.4B-Thinking、2.6B-Thinking)使用“高质量推理标注数据”微调 专项强化推理能力,让 Thinking 变体在逻辑推理、数学计算等场景表现更优

这种多阶段训练的核心优势是“精准可控”——每个阶段聚焦特定能力,避免了“一刀切”训练导致的能力不均衡问题,也是 Ouro 能在小参数量下覆盖多场景的关键。

3. 推理机制:为何 latent 推理比显式生成更优?

Ouro 采用的“latent 推理”与传统 LLM 的“显式文本推理”(如思维链)有本质区别,其优势主要体现在两点:

(1)推理过程更“忠实”

传统显式推理依赖“生成中间文本步骤”,但这些步骤可能存在“冗余”(如重复表述)或“错误传递”(前一步错误导致后续全错);而 Ouro 的 latent 推理完全在模型内部进行,中间计算基于向量(而非文本),可直接捕捉“输入与结论”的逻辑关联,减少中间步骤的误差。

官方通过“推理忠实性测试”验证:在“判断推理步骤是否必要”的任务中,Ouro 的 latent 推理步骤与人类专家标注的“必要步骤”重合度达 82%,而传统 LLM 显式推理步骤的重合度仅为 65%,证明 Ouro 的推理过程更贴合“真实逻辑”。

(2)推理效率更高

显式推理需要生成大量中间文本,不仅消耗额外算力(生成文本比向量计算更耗时),还会增加输出长度(如解一道数学题需生成 5 行步骤);而 Ouro 仅在最终输出结果,中间无文本生成,推理速度比同参数量传统 LLM 快 30%-50%,输出长度减少 60%以上,更适合对“速度”和“简洁性”有要求的场景(如实时问答、嵌入式设备)。

Ouro:开源预训练循环语言模型(Looped LLM),小参数量匹敌大模型性能

四、Ouro 的典型应用场景

基于“参数高效”“知识操纵强”“自适应计算”的核心特点,Ouro 可适配多类实际场景,尤其适合“资源有限”“推理密集”“数据受限”的场景,具体如下:

1. 数据受限场景:小样本/低资源任务

在数据量不足的场景(如垂直领域小样本学习、低资源语言处理),传统 LLM 因需要大量数据训练而性能不佳;而 Ouro 凭借 7.7T 预训练数据的“泛化能力”和“知识操纵能力”,可在小样本条件下快速适配任务。

例如:在“医疗领域小样本问答”(仅提供 100 条标注数据)中,Ouro-2.6B 的准确率达 68%,而同参数量传统 LLM(如 Qwen3 2B)准确率仅为 52%,接近 8B 级传统 LLM(Qwen3 8B,70%)的性能,且无需额外海量医疗数据训练。

2. 资源有限设备:边缘设备/低算力场景

边缘设备(如手机、物联网设备)、低算力服务器通常无法运行 8B 以上大模型,而 Ouro 的小参数量(1.4B/2.6B)可在这类设备上高效部署,同时提供大模型级性能。

例如:在手机端部署 Ouro-1.4B,运行“实时问答”任务时,响应时间约 0.8 秒,内存占用仅 4GB(传统 4B 模型内存占用约 8GB),且准确率与 4B 模型基本持平,适合“移动端智能助手”“嵌入式语音交互”等场景。

3. 推理密集型任务:逻辑推理/数学计算/代码生成

Ouro 的“知识操纵能力”使其在推理密集型任务中表现突出,典型场景包括:

  • 复杂问答:如“多跳问答”(如“《哈利波特》中,哈利的教父是谁?他的职业是什么?”需要先回忆教父身份,再关联职业)、“因果推理”(如“如果工厂减少排放,对空气质量有什么影响?进而对人体健康有什么影响?”);

  • 数学计算:如“初中代数解题”(如“解方程 2x+3=11”)、“简单微积分”(如“求 y=x² 的导数”),Ouro-2.6B 在 GSM8K(数学解题基准)中的准确率达 40.8%,接近 Qwen3 4B(42%)的性能;

  • 代码生成与调试:如“根据需求写 Python 函数”(如“写一个计算列表平均值的函数”)、“代码错误修复”(如“修复一段存在语法错误的 Java 代码”),Ouro-2.6B 在 MBPP+(代码生成基准)中的得分接近 Qwen3 8B,且生成代码的运行成功率达 72%。

4. 长上下文处理:文档分析/长文本摘要

通过“LongCT 阶段”(20B 长上下文思维链数据)训练,Ouro 具备较强的长文本处理能力,可处理 1000 字以上的长文档,典型场景包括:

  • 长文档问答:如“阅读一份 5000 字的科研论文,回答‘该论文的实验方法是什么?’”;

  • 长文本摘要:如“对一份 3000 字的会议纪要生成 200 字摘要,保留核心决议”;

  • 文档对比分析:如“对比两份 2000 字的产品说明书,找出功能差异”。

在“长文本理解基准(LongDocQA)”中,Ouro-2.6B 处理 2000 字文本的问答准确率达 75%,比同参数量传统 LLM 高 18%,证明其长上下文能力优势。

五、常见问题解答(FAQ)

1. Ouro 与传统 LLM(如 Gemma3、Qwen3)的核心区别是什么?

核心区别在于“推理能力的构建阶段”与“架构设计”:

  • 传统 LLM:推理依赖 post-training 阶段的显式文本生成(如思维链微调),架构为“单向 Transformer 堆叠”,参数量与推理深度正相关;

  • Ouro:推理能力构建在预训练阶段,通过“循环架构+latent 迭代计算”实现深度推理,参数量与推理深度解耦(可通过调整递归步骤提升推理深度,无需增加参数量)。 此外,Ouro 更注重“知识操纵能力”,而传统 LLM 更依赖“知识存储量”。

2. Ouro 的参数效率为什么能提升 2-3 倍?

参数效率提升源于三大技术:

  • 循环架构:参数共享的 Transformer 块避免了“增加层数必须增加参数”的问题,相同参数量下推理深度更高;

  • 7.7T tokens 精细化预训练:多阶段训练覆盖基础语言、长上下文、推理等能力,让模型每一个参数都更“高效”;

  • 熵正则化自适应计算:避免算力浪费,让参数仅在必要时投入计算,提升单位参数的利用率。

3. Ouro-1.4B-Thinking 与 Ouro-1.4B 有什么区别?

两者核心差异在“推理能力强化”:

  • Ouro-1.4B:基础模型,覆盖通用语言理解、生成、基础推理能力,适用于多数通用场景;

  • Ouro-1.4B-Thinking:在基础模型之上,额外进行“Reasoning SFT(推理监督微调)”,使用高质量推理标注数据(如带步骤的数学解题、逻辑推理)优化,更适合“复杂推理”场景(如数学计算、多跳问答)。

4. Ouro 的训练数据量是多少?包含哪些类型?

Ouro 总计使用 7.7T tokens 训练数据,类型涵盖:

  • 标准预训练数据(如 Common Crawl、BooksCorpus、Wikipedia):用于构建基础语言能力;

  • 专业领域数据(如技术文档、代码库、科研论文):提升专业场景适应性;

  • 思维链数据(如带推理步骤的问答、数学解题过程):用于预训练推理能力;

  • 长上下文数据(如 1000 字以上文档):强化长文本处理能力;

  • 靶向数据(如低资源语言、复杂数学题):弥补能力短板。

5. vLLM 和 SGLang 集成后,对 Ouro 有什么好处?

  • vLLM 集成:vLLM 是高效推理框架,支持“PagedAttention”技术,可提升 Ouro 的推理速度(预计比原生 Transformers 快 5-10 倍),同时降低内存占用,适合高并发场景;

  • SGLang 集成:SGLang 支持“结构化提示”,可更精准地控制 Ouro 的推理过程(如指定推理步骤、约束输出格式),提升推理结果的可控性与准确性,尤其适合代码生成、格式化问答等场景。

6. 普通用户可以微调 Ouro 吗?

可以。官方计划在代码仓库中提供“微调脚本”,支持两种微调方式:

  • 轻量级微调:如 LoRA(Low-Rank Adaptation),仅微调部分低秩矩阵,显存占用低(Ouro-1.4B LoRA 微调约需 2GB 显存),适合小数据量场景(如垂直领域问答);

  • 全参数微调:需较多显存(Ouro-1.4B 全参数微调约需 10GB 显存),适合大数据量场景(如行业专属推理任务)。 普通用户建议优先使用 LoRA 微调,降低算力门槛。

六、相关链接

八、总结

Ouro 是由多机构联合研发的开源循环语言模型系列,核心创新在于将推理能力融入预训练阶段,通过参数共享循环架构、latent 空间迭代计算、熵正则化自适应计算三大技术,在 7.7T tokens 预训练数据支撑下,实现 2-3 倍参数效率提升——Ouro-1.4B 可匹配 4B 级标准 LLM 性能,Ouro-2.6B 能匹敌 8B 级标准 LLM,且核心优势源于“知识操纵能力”而非“知识存储量”,在推理密集型、资源有限、数据受限场景中表现突出。目前项目论文已公开,代码即将发布并计划集成 vLLM 与 SGLang 提升推理效率,为小参数量模型实现深度推理提供了新方向,也为数据受限时代的 LLM 应用降低了算力与数据门槛。

打赏
THE END
作者头像
dotaai
正在和我的聊天机器人谈恋爱,它很会捧场。