Ouro：开源预训练循环语言模型（Looped LLM），小参数量匹敌大模型性能

原创发布日期：2025-11-08

一、Ouro 是什么？

Ouro 是由 ByteDance Seed、UC Santa Cruz、Princeton University 等多机构联合研发的开源循环语言模型（Looped Language Models）系列，核心创新在于将“推理能力”融入预训练阶段，而非依赖传统大语言模型（LLM）的 post-training 显式文本生成（如思维链）。该系列包含 Ouro-1.4B、Ouro-2.6B 基础模型及 Ouro-1.4B-Thinking、Ouro-2.6B-Thinking 推理优化变体，通过参数共享循环架构、latent 空间迭代计算、熵正则化自适应计算等技术，在 7.7T tokens 预训练数据支撑下，实现 2-3 倍参数效率提升——Ouro-1.4B 可匹配 4B 级标准 LLM 性能，Ouro-2.6B 能匹敌 8B 级标准 LLM，部分场景达 12B SOTA 模型水平。

传统 LLM 通常通过“显式文本生成”（如 chain-of-thought 思维链）在训练后实现推理，而 Ouro 直接将“推理能力”构建到预训练阶段，通过三大核心设计达成这一目标：① 在 latent 空间（模型内部抽象计算空间，不直接输出文本）进行迭代计算；② 采用熵正则化目标实现“学习式深度分配”（按输入难度动态调整计算步骤）；③ 基于 7.7T 海量 tokens 完成预训练，夯实推理基础。

目前 Ouro 已推出 4 类模型变体，覆盖不同参数量与推理需求：

基础版：Ouro-1.4B（14 亿参数）、Ouro-2.6B（26 亿参数）
推理优化版：Ouro-1.4B-Thinking、Ouro-2.6B-Thinking（通过“推理监督微调（Reasoning SFT）”强化专项推理能力）

从定位来看，Ouro 并非追求“更大参数量”，而是以“参数效率”为核心，旨在数据受限的时代，让小参数量模型具备大模型级别的推理性能，降低 LLM 应用的算力与数据门槛。

二、Ouro 的核心功能特色

Ouro 区别于传统 LLM 的核心优势集中在“架构创新”“参数效率”“推理能力”“计算自适应”四大维度，具体功能特色如下：

1. 循环架构（Looped Architecture）：用“迭代计算”替代“参数堆砌”

传统 LLM 依赖增加 Transformer 层数（如从 24 层增至 48 层）提升推理深度，这会导致参数量成比例增长；而 Ouro 采用参数共享的循环架构——相同的 Transformer 块被“递归调用”，通过在 latent 空间反复迭代计算，实现“更深推理”但不额外增加参数量。

目前 Ouro 系列模型默认使用 4 个递归步骤（R4），即同一组 Transformer 块会对输入数据进行 4 轮迭代处理。这种设计的核心好处是：在参数量固定的情况下，推理深度可通过调整递归步骤灵活控制，避免了“为提升推理能力必须翻倍参数量”的困境。

2. 卓越参数效率：小参数量匹敌大模型，2-3 倍效率提升

通过 7.7T tokens 预训练与循环架构优化，Ouro 展现出远超传统 LLM 的参数效率。官方通过多类基准测试（如 ARC-C、BBH、MMLU、GSM8K 等）验证，其参数效率提升具体表现如下表：

Ouro 模型	参数量	匹敌的标准 LLM 参数量	覆盖基准类型	参数效率提升倍数
Ouro-1.4B	1.4B	4B（如 Gemma3 4B、Qwen3 4B）	ARC-C、BBH、MMLU 等	约 2.8 倍
Ouro-2.6B	2.6B	8B（如 Qwen3 8B）、部分超 12B（如 Gemma3 12B）	Hellaswag、MBPP+ 等	约 3 倍

例如，在“多任务语言理解基准（MMLU）”中，Ouro-1.4B 得分为 39.5，与 Gemma3 4B（37.9）基本持平；在“代码生成基准（MBPP+）”中，Ouro-2.6B 虽未直接给出分数，但官方验证其性能可匹配 Qwen3 8B（53.0），而参数量仅为后者的 1/3。这种效率优势意味着：在相同算力条件下，Ouro 能以更低资源消耗实现同等甚至更优的推理性能。

3. superior 知识操纵能力：不拼“存储”，拼“运用”

传统 LLM 性能提升常被误解为“知识存储量增加”（即通过更多数据记住更多事实），但 Ouro 的优势源于知识操纵能力——即在需要“事实组合”“多跳推理”的任务中，更高效地调用已学知识解决问题。

官方通过“合成任务对照实验”验证了这一点：设计两组任务，一组仅需“回忆事实”（如“巴黎是哪个国家的首都”），另一组需“组合事实+多跳推理”（如“巴黎的人口比伦敦少，伦敦人口比纽约多，巴黎和纽约哪个城市人口多”）。结果显示：

在“回忆事实”任务中，Ouro 与同参数量传统 LLM 性能接近；
在“组合+多跳”任务中，Ouro 性能比同参数量传统 LLM 高出 15%-25%，证明其核心优势是“运用知识”而非“存储知识”。

这种能力对“逻辑推理”“复杂问答”“数学计算”等场景至关重要，也是 Ouro 能在小参数量下实现深度推理的核心原因。

4. 熵正则化自适应计算：“智能分配”计算资源

传统 LLM 对所有输入都采用相同的计算深度（如固定 24 层 Transformer），导致“简单任务浪费算力”（如判断“1+1=2”仍需跑完全部层数）、“复杂任务算力不足”（如解微积分仅用 24 层计算不充分）。

Ouro 创新引入熵正则化训练目标，实现“动态深度分配”：模型会根据输入的“复杂度”自动调整递归步骤（即计算深度）。具体逻辑是：

简单输入（如短文本分类、基础问答）：模型通过“退出门（Exit Gate Head）”判断，在 1-2 个递归步骤后即可退出计算，节省算力；
复杂输入（如多跳推理、长文本分析、数学证明）：模型自动增加递归步骤（最多可到 R4 或更高），确保计算深度匹配任务难度。

这种设计既避免了算力浪费，又保证了复杂任务的推理精度，尤其适合“输入难度波动大”的实际应用场景（如客服对话、文档分析等）。

三、Ouro 的技术细节

Ouro 的性能优势源于底层技术设计，核心技术细节可分为“架构原理”“训练流程”“推理机制”三大模块，以下展开说明：

1. 核心架构原理：循环结构与 latent 推理的实现

Ouro 的架构核心是“参数共享循环+latent 空间迭代”，具体实现流程如下：

输入嵌入（Input Embedding）：将文本输入转换为模型可处理的向量表示；
循环计算（Looped Computation）：嵌入后的向量进入“共享 Transformer 块”，完成第 1 轮计算（R1）；
latent 空间迭代：第 1 轮计算的输出（latent 向量，不输出文本）重新输入“共享 Transformer 块”，进行第 2 轮计算（R2）；
动态退出判断：每轮计算后，“退出门（Exit Gate Head）”会根据当前 latent 向量的“不确定性”（用熵值衡量）判断是否退出：若熵值低（表示模型已确定结果），则输出结果；若熵值高（表示模型仍需进一步计算），则继续迭代（直至 R4 或达到预设上限）；
结果输出：退出后，latent 向量通过输出层转换为文本结果（如回答、代码、推理步骤）。

与传统 LLM 相比，这种架构的关键差异是“推理在 latent 空间完成”——传统 LLM 每一层都可能输出中间文本（如思维链步骤），而 Ouro 仅在最终退出时输出结果，中间计算完全在 latent 空间进行，这使得推理过程更“紧凑”且“忠实”（减少中间文本生成的冗余或错误）。

2. 训练 Pipeline：7.7T tokens 的多阶段精细化训练

Ouro 的训练并非“单一阶段海量数据输入”，而是设计为8 个阶段的精细化流程，总计使用 7.7T tokens 训练数据（约为传统 10B 模型训练数据量的 1.5 倍），各阶段目标明确、层层递进，具体如下表：

训练阶段	数据量	核心目标	关键作用
1. Warmup（热身阶段）	-（无固定量）	初始化模型参数，让模型适应基本文本分布（如词频、语法结构）	避免初始训练时参数震荡，为后续阶段奠定基础
2. Stable Training Phase 1	3T tokens	使用“标准预训练数据”（如 BooksCorpus、Common Crawl 等）训练，构建基础语言能力	让模型掌握词汇、语法、基础事实，形成初步语言理解能力
3. Model Branching（模型分支）	-	通过“参数上采样（upcycling）”技术，从基础模型衍生出 Ouro-1.4B 和 Ouro-2.6B 两个变体	同时支持不同参数量需求，后续针对两个变体同步优化
4. Stable Training Phase 2	3T tokens	对 1.4B 和 2.6B 变体同步训练，补充“多样化预训练数据”（如专业文档、代码库）	提升模型在专业领域（如技术文档、代码）的理解能力
5. CT Annealing（思维链退火）	1.4T tokens	逐步引入“思维链数据”（如带推理步骤的问答、数学解题过程），并通过“退火”调整训练强度	让模型逐步适应“推理式训练”，避免直接输入思维链导致的过拟合
6. LongCT（长上下文思维链）	20B tokens	使用“长上下文思维链数据”（如 1000 字以上文档的推理分析）训练	强化模型对长文本的推理能力，解决传统 LLM 长上下文性能衰减问题
7. Mid-Training（中期训练）	300B tokens	针对前 6 阶段暴露的“能力短板”（如低资源语言、复杂数学），使用“靶向数据”训练	弥补模型弱点，提升全场景适应性
8. Reasoning SFT（推理监督微调）	-	对“Thinking 变体”（1.4B-Thinking、2.6B-Thinking）使用“高质量推理标注数据”微调	专项强化推理能力，让 Thinking 变体在逻辑推理、数学计算等场景表现更优

这种多阶段训练的核心优势是“精准可控”——每个阶段聚焦特定能力，避免了“一刀切”训练导致的能力不均衡问题，也是 Ouro 能在小参数量下覆盖多场景的关键。

3. 推理机制：为何 latent 推理比显式生成更优？

Ouro 采用的“latent 推理”与传统 LLM 的“显式文本推理”（如思维链）有本质区别，其优势主要体现在两点：

（1）推理过程更“忠实”

传统显式推理依赖“生成中间文本步骤”，但这些步骤可能存在“冗余”（如重复表述）或“错误传递”（前一步错误导致后续全错）；而 Ouro 的 latent 推理完全在模型内部进行，中间计算基于向量（而非文本），可直接捕捉“输入与结论”的逻辑关联，减少中间步骤的误差。

官方通过“推理忠实性测试”验证：在“判断推理步骤是否必要”的任务中，Ouro 的 latent 推理步骤与人类专家标注的“必要步骤”重合度达 82%，而传统 LLM 显式推理步骤的重合度仅为 65%，证明 Ouro 的推理过程更贴合“真实逻辑”。

（2）推理效率更高

显式推理需要生成大量中间文本，不仅消耗额外算力（生成文本比向量计算更耗时），还会增加输出长度（如解一道数学题需生成 5 行步骤）；而 Ouro 仅在最终输出结果，中间无文本生成，推理速度比同参数量传统 LLM 快 30%-50%，输出长度减少 60%以上，更适合对“速度”和“简洁性”有要求的场景（如实时问答、嵌入式设备）。

Ouro：开源预训练循环语言模型（Looped LLM），小参数量匹敌大模型性能

四、Ouro 的典型应用场景

基于“参数高效”“知识操纵强”“自适应计算”的核心特点，Ouro 可适配多类实际场景，尤其适合“资源有限”“推理密集”“数据受限”的场景，具体如下：

1. 数据受限场景：小样本/低资源任务

在数据量不足的场景（如垂直领域小样本学习、低资源语言处理），传统 LLM 因需要大量数据训练而性能不佳；而 Ouro 凭借 7.7T 预训练数据的“泛化能力”和“知识操纵能力”，可在小样本条件下快速适配任务。

例如：在“医疗领域小样本问答”（仅提供 100 条标注数据）中，Ouro-2.6B 的准确率达 68%，而同参数量传统 LLM（如 Qwen3 2B）准确率仅为 52%，接近 8B 级传统 LLM（Qwen3 8B，70%）的性能，且无需额外海量医疗数据训练。

2. 资源有限设备：边缘设备/低算力场景

边缘设备（如手机、物联网设备）、低算力服务器通常无法运行 8B 以上大模型，而 Ouro 的小参数量（1.4B/2.6B）可在这类设备上高效部署，同时提供大模型级性能。

例如：在手机端部署 Ouro-1.4B，运行“实时问答”任务时，响应时间约 0.8 秒，内存占用仅 4GB（传统 4B 模型内存占用约 8GB），且准确率与 4B 模型基本持平，适合“移动端智能助手”“嵌入式语音交互”等场景。

3. 推理密集型任务：逻辑推理/数学计算/代码生成

Ouro 的“知识操纵能力”使其在推理密集型任务中表现突出，典型场景包括：

复杂问答：如“多跳问答”（如“《哈利波特》中，哈利的教父是谁？他的职业是什么？”需要先回忆教父身份，再关联职业）、“因果推理”（如“如果工厂减少排放，对空气质量有什么影响？进而对人体健康有什么影响？”）；
数学计算：如“初中代数解题”（如“解方程 2x+3=11”）、“简单微积分”（如“求 y=x² 的导数”），Ouro-2.6B 在 GSM8K（数学解题基准）中的准确率达 40.8%，接近 Qwen3 4B（42%）的性能；
代码生成与调试：如“根据需求写 Python 函数”（如“写一个计算列表平均值的函数”）、“代码错误修复”（如“修复一段存在语法错误的 Java 代码”），Ouro-2.6B 在 MBPP+（代码生成基准）中的得分接近 Qwen3 8B，且生成代码的运行成功率达 72%。

4. 长上下文处理：文档分析/长文本摘要

通过“LongCT 阶段”（20B 长上下文思维链数据）训练，Ouro 具备较强的长文本处理能力，可处理 1000 字以上的长文档，典型场景包括：

长文档问答：如“阅读一份 5000 字的科研论文，回答‘该论文的实验方法是什么？’”；
长文本摘要：如“对一份 3000 字的会议纪要生成 200 字摘要，保留核心决议”；
文档对比分析：如“对比两份 2000 字的产品说明书，找出功能差异”。

在“长文本理解基准（LongDocQA）”中，Ouro-2.6B 处理 2000 字文本的问答准确率达 75%，比同参数量传统 LLM 高 18%，证明其长上下文能力优势。

五、常见问题解答（FAQ）

1. Ouro 与传统 LLM（如 Gemma3、Qwen3）的核心区别是什么？

核心区别在于“推理能力的构建阶段”与“架构设计”：

传统 LLM：推理依赖 post-training 阶段的显式文本生成（如思维链微调），架构为“单向 Transformer 堆叠”，参数量与推理深度正相关；
Ouro：推理能力构建在预训练阶段，通过“循环架构+latent 迭代计算”实现深度推理，参数量与推理深度解耦（可通过调整递归步骤提升推理深度，无需增加参数量）。此外，Ouro 更注重“知识操纵能力”，而传统 LLM 更依赖“知识存储量”。

2. Ouro 的参数效率为什么能提升 2-3 倍？

参数效率提升源于三大技术：

循环架构：参数共享的 Transformer 块避免了“增加层数必须增加参数”的问题，相同参数量下推理深度更高；
7.7T tokens 精细化预训练：多阶段训练覆盖基础语言、长上下文、推理等能力，让模型每一个参数都更“高效”；
熵正则化自适应计算：避免算力浪费，让参数仅在必要时投入计算，提升单位参数的利用率。

3. Ouro-1.4B-Thinking 与 Ouro-1.4B 有什么区别？

两者核心差异在“推理能力强化”：

Ouro-1.4B：基础模型，覆盖通用语言理解、生成、基础推理能力，适用于多数通用场景；
Ouro-1.4B-Thinking：在基础模型之上，额外进行“Reasoning SFT（推理监督微调）”，使用高质量推理标注数据（如带步骤的数学解题、逻辑推理）优化，更适合“复杂推理”场景（如数学计算、多跳问答）。

4. Ouro 的训练数据量是多少？包含哪些类型？

Ouro 总计使用 7.7T tokens 训练数据，类型涵盖：

标准预训练数据（如 Common Crawl、BooksCorpus、Wikipedia）：用于构建基础语言能力；
专业领域数据（如技术文档、代码库、科研论文）：提升专业场景适应性；
思维链数据（如带推理步骤的问答、数学解题过程）：用于预训练推理能力；
长上下文数据（如 1000 字以上文档）：强化长文本处理能力；
靶向数据（如低资源语言、复杂数学题）：弥补能力短板。

5. vLLM 和 SGLang 集成后，对 Ouro 有什么好处？

vLLM 集成：vLLM 是高效推理框架，支持“PagedAttention”技术，可提升 Ouro 的推理速度（预计比原生 Transformers 快 5-10 倍），同时降低内存占用，适合高并发场景；
SGLang 集成：SGLang 支持“结构化提示”，可更精准地控制 Ouro 的推理过程（如指定推理步骤、约束输出格式），提升推理结果的可控性与准确性，尤其适合代码生成、格式化问答等场景。

6. 普通用户可以微调 Ouro 吗？

可以。官方计划在代码仓库中提供“微调脚本”，支持两种微调方式：

轻量级微调：如 LoRA（Low-Rank Adaptation），仅微调部分低秩矩阵，显存占用低（Ouro-1.4B LoRA 微调约需 2GB 显存），适合小数据量场景（如垂直领域问答）；
全参数微调：需较多显存（Ouro-1.4B 全参数微调约需 10GB 显存），适合大数据量场景（如行业专属推理任务）。普通用户建议优先使用 LoRA 微调，降低算力门槛。

六、相关链接

八、总结

Ouro 是由多机构联合研发的开源循环语言模型系列，核心创新在于将推理能力融入预训练阶段，通过参数共享循环架构、latent 空间迭代计算、熵正则化自适应计算三大技术，在 7.7T tokens 预训练数据支撑下，实现 2-3 倍参数效率提升——Ouro-1.4B 可匹配 4B 级标准 LLM 性能，Ouro-2.6B 能匹敌 8B 级标准 LLM，且核心优势源于“知识操纵能力”而非“知识存储量”，在推理密集型、资源有限、数据受限场景中表现突出。目前项目论文已公开，代码即将发布并计划集成 vLLM 与 SGLang 提升推理效率，为小参数量模型实现深度推理提供了新方向，也为数据受限时代的 LLM 应用降低了算力与数据门槛。

打赏

版权及免责申明：本文由@dotaai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/ouro.html

THE END

dotaai

正在和我的聊天机器人谈恋爱，它很会捧场。

+ 关注

Ouro：开源预训练循环语言模型（Looped LLM），小参数量匹敌大模型性能

文章目录

一、Ouro 是什么？

二、Ouro 的核心功能特色

1. 循环架构（Looped Architecture）：用“迭代计算”替代“参数堆砌”

2. 卓越参数效率：小参数量匹敌大模型，2-3 倍效率提升

3. superior 知识操纵能力：不拼“存储”，拼“运用”

4. 熵正则化自适应计算：“智能分配”计算资源

三、Ouro 的技术细节

1. 核心架构原理：循环结构与 latent 推理的实现

2. 训练 Pipeline：7.7T tokens 的多阶段精细化训练

3. 推理机制：为何 latent 推理比显式生成更优？

（1）推理过程更“忠实”

（2）推理效率更高

四、Ouro 的典型应用场景

1. 数据受限场景：小样本/低资源任务

2. 资源有限设备：边缘设备/低算力场景

3. 推理密集型任务：逻辑推理/数学计算/代码生成

4. 长上下文处理：文档分析/长文本摘要

五、常见问题解答（FAQ）

六、相关链接

八、总结

相关文章