RynnBrain:阿里巴巴达摩院推出的开源具身智能基础模型

原创 发布日期:
72

一、RynnBrain是什么

RynnBrain是阿里巴巴达摩院研发并开源的具身基础模型(Embodied Foundation Model),是全球首个聚焦移动操作、具备强时空记忆与物理空间推理能力的机器人大脑模型,于2026年2月正式开源代码、模型权重与全套工具链。

它以“扎根物理现实”为核心设计理念,统一理解、定位、推理、规划四大能力,解决传统机器人“转头就忘、空间幻觉、任务中断无法续接、精细操作难”等行业痛点,让机器人具备类人的场景记忆、空间感知与逻辑推理,实现从“被动执行指令”到“主动理解环境、自主规划任务”的升级。

RynnBrain基于通义千问Qwen3-VL系列底座训练,提供Dense密集架构(2B/8B)MoE混合专家架构(30B-A3B),并推出物理推理(CoP)、任务规划(Plan)、视觉语言导航(Nav)三大专项模型,形成覆盖基础能力与垂直场景的完整模型体系,是面向家用服务、工业制造、医疗护理、商业服务等领域的通用具身智能底座。

二、功能特色

1. 全方位自我中心理解

以机器人第一视角为核心,擅长细粒度视频解析、场景认知、目标计数、视频内OCR等基础能力,可精准识别室内外环境中的物体、文字、属性与空间关系,回答“桌上有几个杯子”“柜子上的标签写了什么”等具身问答。

2. 多维度时空定位

具备强大的情景记忆时空定位能力,可在历史视觉序列中回溯并锁定:

  • 物体位置与边界框

  • 目标区域坐标点集

  • 运动轨迹与路径

  • 可操作点位(抓取位姿)
    支持任务中断后恢复、跨视角空间匹配、动态目标追踪,彻底解决机器人“空间失忆”问题。

3. 物理空间交错推理

区别于纯文本思维链,采用文本推理+空间锚定交替执行的策略,每一步推理都绑定物理位置,大幅降低空间幻觉。例如执行“把香蕉放到桌子左下角”时,先识别物体→定位区域→绑定动作→输出可执行空间指令,让推理全程落地真实环境。

4. 物理感知精准规划

将物体功能属性(可抓取、可放置、可按压)与空间位置融合进任务规划,为下游VLA(视觉-语言-动作)模型输出细粒度、可直接执行的步骤指令,支持复杂长周期任务拆解、异常恢复、多任务优先级调度。

5. 轻量高效与高泛化

  • 30B MoE模型仅激活约3B参数,推理速度快、显存占用低,性能超越72B密集型具身模型

  • 通用视觉能力保留Qwen3-VL水准,同时在具身专项上大幅提升

  • 少量数据微调即可适配家用、工业、医疗等不同场景

6. 全栈开源与开箱即用

开源全系列7个模型、推理代码、训练代码、11个Jupyter教程、专属评测基准RynnBrain-Bench,支持Hugging Face/ModelScope一键加载,兼容Transformers标准接口,降低二次开发成本。

RynnBrain:阿里巴巴达摩院推出的开源具身智能基础模型

三、技术细节

1. 模型体系与规格

RynnBrain采用统一编码器-解码器架构,同时支持Dense与MoE结构,将全视觉输入(图片/多图/视频)+文本指令转化为空间轨迹、物理指向、动作规划、坐标序列等多模态输出。

模型名称 底座 类型 核心用途
RynnBrain-2B Qwen3-VL-2B Dense 轻量级具身理解
RynnBrain-8B Qwen3-VL-8B Dense 通用具身理解与定位
RynnBrain-30B-A3B Qwen3-VL-30B MoE 高性能复杂规划与推理
RynnBrain-CoP-8B RynnBrain-8B 微调 物理空间点链推理
RynnBrain-Plan-8B RynnBrain-8B 微调 机器人任务规划
RynnBrain-Plan-30B RynnBrain-30B 微调 超复杂长周期任务
RynnBrain-Nav-8B RynnBrain-8B 微调 视觉-语言自主导航

2. 核心技术架构

(1)统一时空表示

将图像与视频作为统一输入模态,学习时间因果关系与运动动态,让机器人理解“从哪来、到哪去、经过什么”。

(2)物理坐标量化输出

用离散坐标Token表示空间位置,把连续物理控制转化为离散生成任务,模型可直接输出:

  • 物体边界框

  • 区域点集

  • 运动轨迹

  • 夹爪抓取位姿
    实现语言指令到空间动作的精准映射。

(3)文本-空间交错推理

推理流程:文本理解 → 空间定位 → 文本续推 → 再空间锚定,循环执行直到任务完成,确保每一步逻辑都有物理位置支撑,杜绝“无中生有”的空间幻觉。

(4)训练工程优化

  • 在线负载均衡:解决长序列样本拖尾问题,训练加速2倍

  • 按样本损失归约:保证分布式训练稳定性

  • ZeRO/梯度检查点/专家并行:降低显存占用,提升吞吐

  • 兼容Hugging Face Transformers,开箱即用

3. 训练数据与范式

采用两千万级多模态数据训练,覆盖:

  • 通用视频-文本数据

  • 自我中心(Ego)视频与具身问答

  • 物体/空间/计数/定位标注数据

  • 导航与操作规划数据
    采用“预训练+专项微调”范式,基础模型学通用能力,专项模型用小数据对齐场景,兼顾泛化性与专业性。

4. 评测基准 RynnBrain-Bench

针对具身细粒度时空能力空白,推出四维评测体系:

  1. 物体认知

  2. 空间认知

  3. 空间定位

  4. 具身点预测
    覆盖2000+细粒度场景,填补行业测评缺口。

5. 性能表现

  • 16项具身开源Benchmark刷新SOTA

  • 超越谷歌Gemini Robotics ER 1.5、英伟达Cosmos Reason 2

  • 8项域外泛化评测领先同类具身模型

  • 30B MoE仅激活3B参数,超越72B密集模型

四、应用场景

1. 家用服务机器人

  • 物品查找、递取、整理

  • 多步骤家务(倒水、端菜、收纳)

  • 老人/儿童陪伴与安全监护

  • 任务中断后自动续接(如中途避障、被打扰后恢复)

2. 工业制造机器人

  • 产线装配、零件检测、物料搬运

  • 复杂工序规划与异常恢复

  • 动态环境避障与路径优化

  • 人机协同作业

3. 医疗护理机器人

  • 手术室器械传递、流程衔接

  • 病房送药、监测、辅助行动

  • 精准操作与安全空间约束

4. 商业服务机器人

  • 商场/酒店导引、问答、配送

  • 连续对话与场景记忆

  • 顾客离开后返回可继续服务

5. 特种与公共服务

  • 巡检机器人(机房、电力、管道)

  • 救援机器人环境理解与路径规划

  • 仓储物流拣选、分拣、上架

RynnBrain:阿里巴巴达摩院推出的开源具身智能基础模型

五、使用方法

1. 环境安装

最低依赖:

pip install transformers==4.57.1

推荐完整环境:

pip install torch torchvision transformers accelerate sentencepiece

2. 模型快速调用

基础文本+图像生成:

from transformers import AutoModelForImageTextToText, AutoProcessor

# 替换为具体模型名
model_name = "Alibaba-DAMO-Academy/RynnBrain-8B"

model = AutoModelForImageTextToText.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)

# 输入图片 + 指令
image = ... # 读取图片
prompt = "在图中定位杯子,并给出抓取位置"

inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(outputs[0], skip_special_tokens=True))

3. 仓库目录与使用

RynnBrain/
├── demo.py         # 快速演示脚本
├── cookbooks/        # 11个官方教程Notebook
├── planning/        # 任务规划模块
├── navigation/        # 视觉语言导航模块
├── reasoning/        # 物理空间推理模块
└── rynnbrain-bench/     # 评测基准

4. 官方教程(Cookbooks)

  1. 空间理解

  2. 物体理解与计数

  3. 视频OCR

  4. 物体定位

  5. 区域定位

  6. 可操作点定位

  7. 轨迹定位

  8. 夹爪位姿预测

  9. 时空交错推理

  10. 操作规划

  11. 视觉语言导航

5. 模型微调

支持LoRA/全参数微调,面向规划、导航、推理等任务,仅需数百条样本即可达到SOTA效果,官方提供训练脚本与数据格式说明。

RynnBrain:阿里巴巴达摩院推出的开源具身智能基础模型

六、常见问题解答

Q1:RynnBrain和普通视觉语言模型(VLM)有什么区别?

A:普通VLM聚焦数字世界图文理解,RynnBrain专为物理世界机器人设计,具备时空记忆、空间坐标输出、物理交错推理、任务规划等具生专属能力,输出可直接驱动机器人执行动作,而非仅文本回答。

Q2:RynnBrain支持哪些机器人平台?

A:理论支持所有具备视觉输入与动作控制的机器人,包括轮式、四足、人形、机械臂等。只需将相机画面输入模型,把模型输出的坐标/轨迹/步骤解析为机器人控制指令即可。

Q3:30B-A3B MoE模型的推理成本高吗?

A:不高。它是稀疏激活模型,实际推理仅用约3B参数,速度与8B密集模型接近,显存占用更低,适合端侧与边缘设备部署。

Q4:是否支持视频输入?最长支持多少帧?

A:支持图片、多图、视频输入,官方教程提供视频处理示例,默认支持长序列上下文,最大可到16384 token,满足长视频时空理解需求。

Q5:没有机器人硬件可以使用RynnBrain吗?

A:可以。可在仿真环境(如AI2THOR、Habitat)中测试导航、规划、推理能力,官方Notebook提供纯视觉环境下的定位、计数、OCR等功能演示。

Q6:RynnBrain的开源协议是什么?

A:采用Apache 2.0开源协议,允许商业使用、修改、分发,自由度高。

Q7:如何解决机器人空间幻觉问题?

A:通过“文本-空间交错推理”,每一步推理都绑定真实位置坐标,并用物理空间约束输出,从模型架构层面降低幻觉。

Q8:微调一个行业专用模型需要多少数据?

A:官方实验显示,导航/规划/推理任务仅需数百条标注数据即可微调达到SOTA效果,数据成本极低。

Q9:支持Windows/macOS/Linux吗?

A:全平台支持,只要安装PyTorch与Transformers即可运行,Linux推荐用于训练与部署。

Q10:RynnBrain可以实时控制机器人吗?

A:可以。模型推理速度快,配合轻量化推理引擎(如SGLang、vLLM)可满足实时感知、规划与控制需求。

七、相关链接

八、总结

RynnBrain是阿里巴巴达摩院面向具身智能推出的开源基础模型,以物理现实为核心锚点,整合时空记忆、物理空间交错推理、物理感知任务规划等关键能力,解决传统机器人空间失忆、环境理解弱、任务执行僵化、幻觉严重等行业痛点,提供2B/8B密集架构与30B MoE稀疏架构及规划、导航、物理推理专项模型,在16项具身评测上达SOTA水平,超越国际主流同类模型。项目全栈开源代码、权重、教程与评测基准,兼容标准大模型生态,轻量化高效能,少量数据即可微调适配家用、工业、医疗、商业等场景,为机器人提供通用、可靠、可落地的“大脑”,降低具身智能技术门槛,推动机器人从机械执行工具向具备场景理解、记忆、推理与规划能力的自主智能体进化,是当前具身智能领域最具实用性与前瞻性的开源底座之一。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新