Ring-V2.5:蚂蚁集团开源的万亿参数AI思考模型,高效推理与长程任务执行双突破

原创 发布日期:
68

一、Ring-V2.5是什么

Ring-V2.5是由蚂蚁集团于2026年2月正式开源的AI大模型项目,核心定位是全球首个基于混合线性注意力架构的万亿参数思考模型开源平台,项目核心产品为Ring-2.5-1T万亿参数思考模型。

从项目本质来看,Ring-V2.5并非单纯的对话模型,而是聚焦“深度思考+高效执行+长程任务”的通用AI智能体底座模型,针对当前大模型领域“深度推理与生成效率无法兼顾、长文本处理成本高、复杂任务自主执行能力弱”的行业痛点,通过创新混合线性注意力架构、强化学习训练优化、超长上下文支持三大核心突破,打造兼顾“思考深度、执行速度、落地成本”的万亿参数开源模型。

项目仓库严格遵循MIT开源协议,完全开放模型代码、配置文件、部署脚本、解题示例与技术文档,允许个人、企业免费使用、修改、分发与商用,降低万亿参数高端模型的研发与落地门槛,填补了开源领域“高性能万亿参数思考模型”的空白。

Ring-V2.5的核心使命是推动AI从“被动问答”向“主动思考、自主执行”的智能体时代演进,为学术研究、工业级应用、复杂逻辑任务处理提供轻量化、高效率、高可靠的底层模型支撑。

二、功能特色

Ring-V2.5核心模型Ring-2.5-1T围绕“深思考、高效率、长上下文、强执行、全开源” 五大核心特色打造,具体功能亮点如下:

1. 顶级深度思考能力,数学竞赛金牌水准

  • 突破传统模型逻辑推理瓶颈,在IMO 2025(国际数学奥林匹克) 中取得35/42分的金牌成绩,在CMO 2025(中国数学奥林匹克) 中取得105/126分,远超金牌线(78分)与国家集训队选拔线(87分);

  • 支持复杂逻辑推导、漏洞识别、反例构造、条件补全与严谨证明,覆盖数学、物理、编程等硬核推理场景;

  • 在ARC-AGI-V2、AIME 26、HMMT 25等国际权威推理基准中达到开源SOTA水平。

2. 混合线性注意力架构,生成效率大幅提升

  • 首创1:7 MLA(混合线性注意力)+ Lightning Linear Attention 架构,平衡全注意力的泛化能力与线性注意力的高效性;

  • 超32K生成长度下,访存规模降低超10倍,生成吞吐量提升3倍以上;

  • 8×H200 GPU环境中,16K+ tokens生成长度下,解码吞吐量较传统架构模型提升40%以上,显著降低推理成本。

3. 超长上下文支持,覆盖全场景长文本需求

  • 原生支持128K tokens上下文长度,通过YaRN技术可无损扩展至256K tokens

  • 可直接处理整本电子书、大型代码库、超长对话记录、企业级文档等大体积文本,无需分段切割;

  • 长文本理解、信息提取、内容总结、逻辑关联分析能力行业领先。

4. 强悍长程任务执行,自主完成复杂工程任务

  • 通过大规模全异步智能体强化学习(Fully-async Agentic RL)训练,具备长时程自主执行能力;

  • 可自主完成“需求分析→SPEC文档撰写→代码开发→调试BUG→自测验证”全流程软件开发;

  • 支持终端接管、工具调用、跨应用协作,在Claude Code中可连续工作2小时以上,实现迷你操作系统、bash命令行等复杂项目开发;

  • 在Gaia2-search、Tau2-bench、SWE-Bench Verified等智能体任务基准中达到开源领先水平。

5. 全开源标准化部署,降低落地门槛

  • 仓库提供完整模型代码、配置文件、部署脚本、调用示例与技术文档;

  • 适配SGLang主流推理框架,支持BF16/FP8精度,提供多节点GPU集群部署方案;

  • 兼容Hugging Face、ModelScope两大主流模型平台,一键下载快速部署;

  • 依赖清晰、脚本标准化,个人开发者与企业均可快速上手。

核心模型信息表

模型名称 参数量 上下文长度 精度支持 开源协议 核心架构
Ring-2.5-1T 1万亿 128K(原生)/256K(YaRN扩展) BF16、FP8 MIT 1:7 MLA+Lightning Linear Attention

三、技术细节

Ring-V2.5的核心技术壁垒集中在混合线性注意力架构、强化学习训练体系、超长上下文优化、高效推理部署四大模块,技术细节完全开源透明,具体如下:

1. 混合线性注意力(Hybrid Linear Attention)架构

这是Ring-2.5-1T最核心的创新技术,解决传统注意力机制的效率瓶颈:

  • 1:7比例配比:采用1份全注意力(Multi-head Attention)+7份线性注意力(Linear Attention)的黄金配比,既保留全注意力的泛化能力,又发挥线性注意力的低访存、高速度优势;

  • Lightning Linear Attention:自研线性注意力加速模块,优化显存占用与计算流程,长文本场景下计算复杂度从O(N²)降至O(N);

  • 架构优势:打破大模型“深度思考必慢”的不可能三角,在万亿参数规模下实现推理速度与思考深度的双重突破。

2. 深度思考强化学习训练体系

为提升模型逻辑严谨性与推理准确性,项目采用双层强化学习方案:

  • RLVR(可验证奖励强化学习):基础奖励层,基于推理结果的正确性给予奖励;

  • Dense Reward(密集奖励):过程奖励层,针对推理步骤的严谨性、逻辑性、完整性给予实时反馈,引导模型形成标准化思考链;

  • 训练效果:模型不再单纯“生成答案”,而是具备“分步推导、自我校验、漏洞修正”的类人思考能力。

3. 长程任务智能体训练

针对复杂任务自主执行需求,项目采用大规模全异步智能体训练:

  • Fully-async Agentic RL:支持多任务并行训练、跨场景任务迁移,提升模型长时程记忆与任务规划能力;

  • 工具调用优化:内置终端操作、代码执行、信息检索等工具调用逻辑,可自主调用外部资源完成复杂任务;

  • 执行能力:支持小时级连续任务执行,无需人工干预即可完成完整工程项目开发。

4. 超长上下文优化技术

  • 原生128K上下文设计:模型预训练阶段采用128K序列长度,确保长文本理解的原生能力;

  • YaRN扩展技术:通过位置编码优化,无损扩展至256K上下文,无性能衰减;

  • 长文本缓存机制:优化KV缓存策略,降低长文本推理的显存占用。

5. 高效推理部署技术

  • SGLang框架适配:深度适配SGLang高效推理引擎,支持张量并行(TP)、流水线并行(PP)、数据并行(DP);

  • 多精度支持:兼容BF16/FP8混合精度,在保证性能的前提下大幅降低显存占用;

  • 多节点集群部署:提供4节点GPU集群标准化部署脚本,支持大规模工业级推理。

核心技术对比表

技术维度 Ring-2.5-1T 传统万亿参数模型 优势
注意力架构 混合线性注意力(1:7 MLA) 全注意力 长文本速度提升3倍+,访存降低10倍+
训练方案 RLVR+密集奖励+Agentic RL 基础预训练+SFT 思考更严谨,长程执行能力更强
上下文长度 128K原生/256K扩展 8K-32K 覆盖超大文本场景,无需分段
推理精度 BF16/FP8 FP32/BF16 显存占用降低50%+,速度提升

四、应用场景

Ring-V2.5凭借深度推理、高效执行、长上下文、全开源的特性,可覆盖学术研究、工业开发、企业服务、个人工具等全场景,核心应用场景如下:

1. 学术研究场景

  • 大模型架构研究:为注意力机制、线性注意力、万亿参数模型缩放提供开源实验平台;

  • 智能体理论研究:验证“思考-执行”闭环智能体的技术路径,推动通用人工智能研究;

  • 数学/逻辑推理研究:基于IMO/CMO解题示例,开展自动推理、定理证明相关研究。

2. 软件开发场景

  • 全自动代码开发:自主完成需求分析、代码编写、调试、测试、文档生成全流程;

  • 大型代码库维护:理解百万行级代码逻辑,提供bug修复、功能迭代、代码优化建议;

  • 低代码/无代码平台:作为底层AI引擎,支撑自然语言生成可运行代码、系统模块。

3. 企业级服务场景

  • 长文本处理:企业年报、合同、专利、海量文档的智能分析、信息提取、总结归档;

  • 智能客服升级:支持多轮复杂问题解决、自主查询企业知识库、跨系统协同处理;

  • 金融/法律推理:金融风险分析、法律条文解读、案例推导、合规审查等高逻辑需求场景。

4. 教育科研场景

  • 智能教学助手:数学、物理、编程等学科的分步讲解、错题分析、逻辑推导演示;

  • 科研辅助:论文阅读、实验设计、数据推导、科研思路拓展;

  • 竞赛辅导:IMO、CMO等数学竞赛的解题思路讲解、逻辑训练。

5. AI智能体开发场景

  • 作为通用智能体“大脑”,支撑家庭管家、办公助手、工业控制、自动驾驶决策等智能体产品;

  • 支持工具调用、环境交互、长程任务规划,快速开发各类垂直领域智能体应用。

Ring-V2.5:蚂蚁集团开源的万亿参数AI思考模型,高效推理与长程任务执行双突破

五、使用方法

Ring-V2.5仓库提供标准化、一站式的部署与使用流程,核心基于SGLang框架实现推理服务,具体步骤如下:

1. 环境准备

(1)基础环境要求

  • 操作系统:Linux(推荐Ubuntu 20.04+)

  • GPU:支持NVIDIA CUDA,推荐8×H100/H200及以上显卡(万亿参数模型多节点部署)

  • Python:3.10及以上版本

  • CUDA:12.1及以上版本

(2)克隆SGLang定制分支

# 克隆项目指定分支
git clone -b ling_2_5 git@github.com:antgroup/sglang.git
cd sglang

# 升级pip并安装依赖
pip install --upgrade pip
pip install -e "python"

2. 模型下载

从Hugging Face或ModelScope下载Ring-2.5-1T模型文件:

  • Hugging Face下载地址:inclusionAI/Ring-2.5-1T

  • ModelScope下载地址:inclusionAI/Ring-2.5-1T
    下载后将模型存放至指定路径${MODEL_PATH}

3. 多节点服务端部署

以4节点GPU集群为例,配置主节点IP(${MASTER_IP})与服务端口(${PORT}),分别在各节点执行启动命令:

节点0(主节点)

python -m sglang.launch_server --model-path ${MODEL_PATH} --tp-size 8 --pp-size 4 --dp-size 1 --trust-remote-code --dist-init-addr ${MASTER_IP}:2345 --port ${PORT} --nnodes 4 --node-rank 0

节点1

python -m sglang.launch_server --model-path ${MODEL_PATH} --tp-size 8 --pp-size 4 --dp-size 1 --trust-remote-code --dist-init-addr ${MASTER_IP}:2345 --port ${PORT} --nnodes 4 --node-rank 1

节点2

python -m sglang.launch_server --model-path ${MODEL_PATH} --tp-size 8 --pp-size 4 --dp-size 1 --trust-remote-code --dist-init-addr ${MASTER_IP}:2345 --port ${PORT} --nnodes 4 --node-rank 2

节点3

python -m sglang.launch_server --model-path ${MODEL_PATH} --tp-size 8 --pp-size 4 --dp-size 1 --trust-remote-code --dist-init-addr ${MASTER_IP}:2345 --port ${PORT} --nnodes 4 --node-rank 3

4. 客户端调用

服务启动后,通过HTTP请求调用模型对话接口,示例如下:

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
 -H "Content-Type: application/json" \
 -d '{"model": "auto", "messages": [{"role": "user", "content": "请证明勾股定理"}]}'

5. 示例运行

仓库examples/目录提供IMO 2025、CMO 2025完整解题示例,直接运行对应脚本即可查看模型推理过程。

六、常见问题解答(FAQ)

Ring-V2.5与Ring-V1、Ring-V2有什么区别?

Ring-V2.5是Ring系列的第三代升级版本,核心升级点:1. 采用全新混合线性注意力架构,效率提升3倍+;2. 强化深度思考训练,达到IMO/CMO金牌水平;3. 上下文从32K提升至128K原生/256K扩展;4. 优化长程任务执行能力,支持自主软件开发;5. 部署流程更标准化,适配SGLang框架。

运行Ring-2.5-1T需要最低什么硬件配置?

个人测试推荐配置:单节点8×H100/H200 GPU,显存≥80GB;工业级部署推荐4节点GPU集群,支持张量并行+流水线并行,保证推理速度与稳定性。

Ring-V2.5模型可以商用吗?

可以。项目仓库与模型均采用MIT开源协议,允许个人、企业免费使用、修改、分发与商用,无需支付授权费用,仅需保留原版权声明。

模型支持中文与英文双语吗?

支持。Ring-2.5-1T在预训练阶段融入海量中英文语料,完美支持中英文对话、推理、代码、文本处理等任务,中文理解与生成效果达到行业顶尖水平。

如何解决长文本推理速度慢的问题?

  1. 启用FP8精度推理,降低显存占用;2. 使用SGLang框架的张量并行/流水线并行优化;3. 采用多节点集群部署,提升并行计算能力;4. 利用模型原生线性注意力架构,长文本场景下速度自动优于传统模型。

模型可以本地部署吗?

可以。支持本地单节点/多节点私有化部署,数据无需上传云端,保障数据安全与隐私,适合企业涉密场景使用。

除了SGLang,还支持其他推理框架吗?

当前仓库主推SGLang框架,后续会逐步适配vLLM、Transformers等主流推理框架,开发者可基于开源代码自行适配其他框架。

模型的上下文长度可以自定义调整吗?

可以。原生支持128K以内任意长度设置,通过YaRN技术可扩展至256K,可根据任务需求与硬件配置灵活调整。

如何获取模型的技术支持与问题解答?

可通过GitHub仓库提交Issue,或关注inclusionAI官方社区获取技术支持,仓库文档会持续更新常见问题与解决方案。

Ring-2.5-1T适合做对话机器人吗?

适合。模型不仅具备基础对话能力,更擅长复杂问题解答、逻辑对话、多轮任务型对话,可开发高端智能客服、专业领域对话助手等产品。

七、相关链接

  1. Ring-V2.5 GitHub开源仓库:https://github.com/inclusionAI/Ring-V2.5

  2. Ring-2.5-1T Hugging Face模型地址:https://huggingface.co/inclusionAI/Ring-2.5-1T

  3. Ring-2.5-1T ModelScope模型地址:https://www.modelscope.cn/models/inclusionAI/Ring-2.5-1T

八、总结

Ring-V2.5是inclusionAI(蚂蚁集团)打造的全球首个混合线性注意力架构万亿参数思考模型开源项目,核心模型Ring-2.5-1T以创新技术打破大模型深度推理与生成效率的平衡瓶颈,在数学推理、长文本处理、复杂任务执行三大核心领域达到开源顶尖水平,凭借MIT协议完全开源、标准化部署流程、全场景适配能力,为AI研究者、开发者与企业提供了可直接落地的万亿参数智能体底座,既推动了大模型架构技术的创新突破,也降低了高端AI模型的使用门槛,是智能体时代极具价值的开源AI基础设施。

打赏
THE END
作者头像
人工智能研究所
发现AI神器,探索AI技术!