UnifoLM-VLA-0:宇树科技开源的通用人形机器人VLA大模型,实现空间语义增强与多任务操作泛化

原创 发布日期:
99

一、UnifoLM-VLA-0是什么

UnifoLM-VLA-0是宇树科技UnifoLM模型家族中,面向通用人形机器人操作的视觉-语言-动作(Vision-Language-Action,VLA)大模型,也是当前具身智能领域聚焦物理交互的核心开源框架。该模型打破了传统视觉-语言模型(VLM)仅能完成图文理解、无法落地物理操作的局限,通过在专业机器人操作数据集上开展持续预训练,完成了从普通图文理解模型到具备物理常识、可直接驱动机器人执行动作的“具身大脑”的转型。

模型以Qwen2.5-VL-7B为基础主干网络,先迭代构建出UnifoLM-VLM-Base视觉语言基础模型,再集成专用动作预测头,最终形成可直接接收图像、文本指令并输出机器人可执行动作序列的UnifoLM-VLA-0。它的核心定位是为人形机器人提供统一的感知-理解-执行链路,用单一模型策略覆盖多类复杂操作任务,降低具身智能研发的技术门槛与数据成本,让人形机器人从单一功能设备向通用操作设备迈进。

二、核心功能特色

UnifoLM-VLA-0围绕人形机器人实际操作需求设计核心能力,两大核心特性构成模型的核心竞争力,同时配套轻量化使用、高数据效率等实用功能,具体如下:

1. 空间语义深度增强

针对机器人操作中指令理解、空间定位、几何推理的高要求,模型通过持续预训练,将文本自然语言指令与2D图像、3D空间几何信息深度融合,大幅提升空间感知与物体几何理解能力。对比基础VLM模型,其空间感知核心指标提升47%,可在零样本场景下完成目标位置推理、运动轨迹生成、可抓取点判断、物体检测分割与精准定位,满足精细操作的空间认知需求。

2. 多任务通用操作泛化

模型基于全链路动力学预测数据训练,具备极强的跨任务泛化能力。在宇树G1人形机器人真机验证中,仅用单一策略模型即可高质量完成12类复杂物理操作任务,涵盖叠积木、插袋子、擦黑板、清洁桌面、折叠毛巾、双机协作整理等日常与工业高频场景。同时在LIBERO仿真基准测试中,多任务处理性能接近理论最优值,无思考模式下的操作精度可对标Gemini-Robotics-ER 1.5国际主流模型。

3. 高数据效率与鲁棒性

模型训练仅需约340小时真机操作数据,特定任务仅需80组演示数据即可快速适配,数据使用效率远高于同类开源VLA模型。面对外部环境扰动时,执行鲁棒性较传统方案提升3.2倍,具备工业级抗干扰能力,可适应非标准化、有动态干扰的真实场景。

4. 全流程开源与易用适配

项目完整开源训练代码、推理代码、三类预训练权重与12组专用数据集,兼容Hugging Face LeRobot标准数据格式,支持自定义数据集快速转换,可无缝对接仿真环境与宇树G1真机部署,降低二次开发与移植成本。

三、关键技术细节

1. 模型架构与训练链路

模型采用“基础VLM预训练→空间语义增强微调→动作头集成→动力学数据训练”的四层架构。首先以Qwen2.5-VL-7B为基座,结合通用图文VQA数据与开源机器人数据训练得到UnifoLM-VLM-Base;随后融入2D/3D空间检测、轨迹预测、任务分解数据,强化空间语义能力;最后集成专用动作预测头,接入全链路动力学预测数据,完成从语义理解到动作输出的闭环。

2. 数据体系与格式规范

项目官方开源12组适配Unitree G1机器人的专用数据集,覆盖物体操作、整理收纳、精细装配、双机协作等场景,数据包含视觉帧、本体姿态、动作标签、空间标注等全维度信息。自定义数据集需遵循Hugging Face LeRobot V2.1格式,项目提供LeRobot转HDF5、HDF5转RLDS的自动化脚本,适配模型训练的数据输入要求。

3. 核心依赖与环境技术栈

项目基于CUDA 12.4构建,Python版本限定为3.10.18,依赖Hugging Face LeRobot框架与FlashAttention2加速模块,采用分布式训练架构,支持多GPU并行加速。动作输出支持长时序块预测,可配置动作维度、自感知维度与数据归一化方式,适配不同机器人本体的执行接口。

4. 推理部署架构

采用服务端-客户端分离部署架构:服务端加载模型权重完成动作推理,客户端采集机器人视觉与本体数据并上传,通过SSH隧道完成通信,既保证模型推理的算力需求,又适配机器人端的轻量化部署,兼容仿真环境与真机硬件。

模型权重信息表

模型名称 训练数据来源 核心用途
UnifoLM-VLM-Base 通用图文VQA数据+开源机器人数据集 视觉-语言主干基础模型,为VLA模型提供基座
UnifoLM-VLA-Base 宇树科技官方开源G1机器人数据集 通用机器人操作任务,适配真机多任务执行
UnifoLM-VLA-LIBERO LIBERO仿真操作数据集 LIBERO仿真环境任务测试与评估

四、典型应用场景

1. 家用服务机器人操作

适配家庭场景的高频操作任务,包括物品抓取放置、桌面清洁、毛巾折叠、文具收纳、水果整理、瓶盖拧动等,支持自然语言指令控制,满足家庭服务机器人的通用操作需求。

2. 工业辅助与人机协作

可用于工业场景的轻型装配、零件整理、桌面清洁、双机协同作业,在有外部扰动的产线环境中稳定执行精细操作,替代重复性人工工作,提升产线柔性。

3. 具身智能算法研发

作为通用VLA基座模型,供高校、科研机构与企业开展具身智能、机器人学习、空间语义理解、长时序动作规划等方向的算法研究,降低从零构建模型的研发成本。

4. 仿真与真机验证平台

兼容LIBERO专业仿真环境与Unitree G1真机,可用于机器人操作算法的快速验证、性能基准测试、泛化能力评估,搭建从仿真到真机的全流程验证链路。

5. 二次开发与定制化适配

支持开发者基于模型权重微调自有场景数据,适配特种机器人、服务机器人、教育机器人等不同硬件平台,快速打造垂直领域的专用操作模型。

UnifoLM-VLA-0:宇树科技开源的通用人形机器人VLA大模型,实现空间语义增强与多任务操作泛化

五、标准化使用方法

1. 基础环境安装

  1. 创建并激活专属conda虚拟环境,指定Python版本保证兼容性;

  2. 克隆项目仓库至本地,进入项目根目录;

  3. 无依赖安装LeRobot框架,再安装项目核心依赖包;

  4. 安装FlashAttention2模块,提升注意力计算效率。
    完整命令:

conda create -n unifolm-vla python==3.10.18
conda activate unifolm-vla
git clone https://github.com/unitreerobotics/unifolm-vla.git
cd unifolm-vla
pip install --no-deps "lerobot @ git+https://github.com/huggingface/lerobot.git@0878c68"
pip install -e .
pip install "flash-attn==2.5.6" --no-build-isolation

2. 数据集准备

  • 官方数据集:直接从Hugging Face下载12组G1专用数据集,无需额外格式处理;

  • 自定义数据集:先整理为LeRobot V2.1格式,通过项目脚本转换为HDF5,再转为RLDS格式,完成数据注册后即可用于训练。

3. 模型训练流程

  1. 在configs.py、transforms.py等配置文件中注册自定义数据集;

  2. 在constants.py中配置动作块大小、动作维度、自感知维度与归一化方式;

  3. 配置基座模型路径、数据集根目录、训练数据组合、权重保存路径与分布式并行参数;

  4. 执行训练脚本run_unifolm_vla.sh启动微调。

4. 推理测试流程

  • 仿真推理:安装LIBERO仿真环境,修改评估脚本配置,启动仿真评估命令;

  • 真机推理:服务端配置权重路径与端口并启动服务,客户端建立SSH隧道连接,运行机器人客户端脚本完成数据采集与动作执行。

5. 项目目录使用

assets存放演示素材,experiments存放仿真配置,prepare_data存放格式转换脚本,scripts包含训练与评估脚本,src/unifolm_vla为模型核心代码包,覆盖配置、架构、数据加载、训练全模块。

六、常见问题解答

运行环境报错,提示CUDA版本不兼容怎么办?

项目基于CUDA 12.4开发,建议优先使用该版本CUDA;若使用其他版本,需重新编译FlashAttention2模块,或移除该模块后以非加速模式运行,同时检查PyTorch与CUDA的版本匹配关系。

自定义数据集无法加载,提示格式错误如何处理?

需严格遵循LeRobot V2.1的目录结构与数据字段规范,先使用convert_lerobot_to_hdf5.py验证格式有效性,转换失败则核对视觉帧、动作数据、本体状态的字段名称与维度,再执行RLDS转换操作。

真机部署时客户端无法连接服务端是什么原因?

首先检查服务器端口是否开放、防火墙规则是否放行;其次确认SSH隧道命令的IP、端口与用户名正确;最后核对服务端与客户端的端口配置一致,且机器人端的unitree_deploy环境依赖完整安装。

训练过程中显存不足如何优化?

可减小批次大小、降低输入图像分辨率、启用梯度累积、减少动作块长度,也可使用多GPU分布式训练,分散单卡显存压力;同时确保关闭不必要的日志与可视化模块,释放显存资源。

模型在仿真中效果良好,真机执行偏差大怎么调整?

优先校准机器人相机内参、本体姿态传感器,保证视觉输入与仿真一致;其次用少量真机数据对模型做微调,适配真实物理环境的动力学差异;同时调整动作执行的滤波参数,降低噪声干扰。

能否适配非G1系列的人形机器人?

可以,需修改constants.py中的动作维度、自感知维度配置,重新标注适配目标机器人的数据集并完成微调,同时对接目标机器人的控制SDK,完成动作输出的接口适配。

模型权重下载缓慢或无法访问如何解决?

可使用Hugging Face镜像站点下载权重,或通过官方提供的国内镜像链接获取,也可使用git lfs工具完整克隆模型仓库,保证权重文件完整下载。

七、相关链接

  1. 项目GitHub仓库:https://github.com/unitreerobotics/unifolm-vla

八、总结

UnifoLM-VLA-0是宇树科技面向通用人形机器人操作场景推出的开源视觉-语言-动作大模型,以空间语义增强与多任务泛化为核心能力,依托轻量化训练数据、全流程开源代码、标准化部署流程,填补了从视觉语言理解到机器人物理动作执行的技术缺口,单一模型可覆盖12类真机操作任务,同时兼容仿真测试与真机部署,既可为具身智能研究提供通用基座,也能直接支撑家用、工业场景的机器人操作开发,降低了行业研发门槛,是当前国产具身智能领域具备实用价值与代表性的开源项目。

打赏
THE END
作者头像
AI铺子
关注ai行业发展,专注ai工具推荐