UnifoLM-VLA-0：宇树科技开源的通用人形机器人VLA大模型，实现空间语义增强与多任务操作泛化

原创发布日期：2026-01-31

203

一、UnifoLM-VLA-0是什么

UnifoLM-VLA-0是宇树科技UnifoLM模型家族中，面向通用人形机器人操作的视觉-语言-动作（Vision-Language-Action，VLA）大模型，也是当前具身智能领域聚焦物理交互的核心开源框架。该模型打破了传统视觉-语言模型（VLM）仅能完成图文理解、无法落地物理操作的局限，通过在专业机器人操作数据集上开展持续预训练，完成了从普通图文理解模型到具备物理常识、可直接驱动机器人执行动作的“具身大脑”的转型。

模型以Qwen2.5-VL-7B为基础主干网络，先迭代构建出UnifoLM-VLM-Base视觉语言基础模型，再集成专用动作预测头，最终形成可直接接收图像、文本指令并输出机器人可执行动作序列的UnifoLM-VLA-0。它的核心定位是为人形机器人提供统一的感知-理解-执行链路，用单一模型策略覆盖多类复杂操作任务，降低具身智能研发的技术门槛与数据成本，让人形机器人从单一功能设备向通用操作设备迈进。

二、核心功能特色

UnifoLM-VLA-0围绕人形机器人实际操作需求设计核心能力，两大核心特性构成模型的核心竞争力，同时配套轻量化使用、高数据效率等实用功能，具体如下：

1. 空间语义深度增强

针对机器人操作中指令理解、空间定位、几何推理的高要求，模型通过持续预训练，将文本自然语言指令与2D图像、3D空间几何信息深度融合，大幅提升空间感知与物体几何理解能力。对比基础VLM模型，其空间感知核心指标提升47%，可在零样本场景下完成目标位置推理、运动轨迹生成、可抓取点判断、物体检测分割与精准定位，满足精细操作的空间认知需求。

2. 多任务通用操作泛化

模型基于全链路动力学预测数据训练，具备极强的跨任务泛化能力。在宇树G1人形机器人真机验证中，仅用单一策略模型即可高质量完成12类复杂物理操作任务，涵盖叠积木、插袋子、擦黑板、清洁桌面、折叠毛巾、双机协作整理等日常与工业高频场景。同时在LIBERO仿真基准测试中，多任务处理性能接近理论最优值，无思考模式下的操作精度可对标Gemini-Robotics-ER 1.5国际主流模型。

3. 高数据效率与鲁棒性

模型训练仅需约340小时真机操作数据，特定任务仅需80组演示数据即可快速适配，数据使用效率远高于同类开源VLA模型。面对外部环境扰动时，执行鲁棒性较传统方案提升3.2倍，具备工业级抗干扰能力，可适应非标准化、有动态干扰的真实场景。

4. 全流程开源与易用适配

项目完整开源训练代码、推理代码、三类预训练权重与12组专用数据集，兼容Hugging Face LeRobot标准数据格式，支持自定义数据集快速转换，可无缝对接仿真环境与宇树G1真机部署，降低二次开发与移植成本。

三、关键技术细节

1. 模型架构与训练链路

模型采用“基础VLM预训练→空间语义增强微调→动作头集成→动力学数据训练”的四层架构。首先以Qwen2.5-VL-7B为基座，结合通用图文VQA数据与开源机器人数据训练得到UnifoLM-VLM-Base；随后融入2D/3D空间检测、轨迹预测、任务分解数据，强化空间语义能力；最后集成专用动作预测头，接入全链路动力学预测数据，完成从语义理解到动作输出的闭环。

2. 数据体系与格式规范

项目官方开源12组适配Unitree G1机器人的专用数据集，覆盖物体操作、整理收纳、精细装配、双机协作等场景，数据包含视觉帧、本体姿态、动作标签、空间标注等全维度信息。自定义数据集需遵循Hugging Face LeRobot V2.1格式，项目提供LeRobot转HDF5、HDF5转RLDS的自动化脚本，适配模型训练的数据输入要求。

3. 核心依赖与环境技术栈

项目基于CUDA 12.4构建，Python版本限定为3.10.18，依赖Hugging Face LeRobot框架与FlashAttention2加速模块，采用分布式训练架构，支持多GPU并行加速。动作输出支持长时序块预测，可配置动作维度、自感知维度与数据归一化方式，适配不同机器人本体的执行接口。

4. 推理部署架构

采用服务端-客户端分离部署架构：服务端加载模型权重完成动作推理，客户端采集机器人视觉与本体数据并上传，通过SSH隧道完成通信，既保证模型推理的算力需求，又适配机器人端的轻量化部署，兼容仿真环境与真机硬件。

模型权重信息表

模型名称	训练数据来源	核心用途
UnifoLM-VLM-Base	通用图文VQA数据+开源机器人数据集	视觉-语言主干基础模型，为VLA模型提供基座
UnifoLM-VLA-Base	宇树科技官方开源G1机器人数据集	通用机器人操作任务，适配真机多任务执行
UnifoLM-VLA-LIBERO	LIBERO仿真操作数据集	LIBERO仿真环境任务测试与评估

四、典型应用场景

1. 家用服务机器人操作

适配家庭场景的高频操作任务，包括物品抓取放置、桌面清洁、毛巾折叠、文具收纳、水果整理、瓶盖拧动等，支持自然语言指令控制，满足家庭服务机器人的通用操作需求。

2. 工业辅助与人机协作

可用于工业场景的轻型装配、零件整理、桌面清洁、双机协同作业，在有外部扰动的产线环境中稳定执行精细操作，替代重复性人工工作，提升产线柔性。

3. 具身智能算法研发

作为通用VLA基座模型，供高校、科研机构与企业开展具身智能、机器人学习、空间语义理解、长时序动作规划等方向的算法研究，降低从零构建模型的研发成本。

4. 仿真与真机验证平台

兼容LIBERO专业仿真环境与Unitree G1真机，可用于机器人操作算法的快速验证、性能基准测试、泛化能力评估，搭建从仿真到真机的全流程验证链路。

5. 二次开发与定制化适配

支持开发者基于模型权重微调自有场景数据，适配特种机器人、服务机器人、教育机器人等不同硬件平台，快速打造垂直领域的专用操作模型。

UnifoLM-VLA-0：宇树科技开源的通用人形机器人VLA大模型，实现空间语义增强与多任务操作泛化

五、标准化使用方法

1. 基础环境安装

创建并激活专属conda虚拟环境，指定Python版本保证兼容性；
克隆项目仓库至本地，进入项目根目录；
无依赖安装LeRobot框架，再安装项目核心依赖包；
安装FlashAttention2模块，提升注意力计算效率。
完整命令：

conda create -n unifolm-vla python==3.10.18
conda activate unifolm-vla
git clone https://github.com/unitreerobotics/unifolm-vla.git
cd unifolm-vla
pip install --no-deps "lerobot @ git+https://github.com/huggingface/lerobot.git@0878c68"
pip install -e .
pip install "flash-attn==2.5.6" --no-build-isolation

2. 数据集准备

官方数据集：直接从Hugging Face下载12组G1专用数据集，无需额外格式处理；
自定义数据集：先整理为LeRobot V2.1格式，通过项目脚本转换为HDF5，再转为RLDS格式，完成数据注册后即可用于训练。

3. 模型训练流程

在configs.py、transforms.py等配置文件中注册自定义数据集；
在constants.py中配置动作块大小、动作维度、自感知维度与归一化方式；
配置基座模型路径、数据集根目录、训练数据组合、权重保存路径与分布式并行参数；
执行训练脚本run_unifolm_vla.sh启动微调。

4. 推理测试流程

仿真推理：安装LIBERO仿真环境，修改评估脚本配置，启动仿真评估命令；
真机推理：服务端配置权重路径与端口并启动服务，客户端建立SSH隧道连接，运行机器人客户端脚本完成数据采集与动作执行。

5. 项目目录使用

assets存放演示素材，experiments存放仿真配置，prepare_data存放格式转换脚本，scripts包含训练与评估脚本，src/unifolm_vla为模型核心代码包，覆盖配置、架构、数据加载、训练全模块。

六、常见问题解答

运行环境报错，提示CUDA版本不兼容怎么办？

项目基于CUDA 12.4开发，建议优先使用该版本CUDA；若使用其他版本，需重新编译FlashAttention2模块，或移除该模块后以非加速模式运行，同时检查PyTorch与CUDA的版本匹配关系。

自定义数据集无法加载，提示格式错误如何处理？

需严格遵循LeRobot V2.1的目录结构与数据字段规范，先使用convert_lerobot_to_hdf5.py验证格式有效性，转换失败则核对视觉帧、动作数据、本体状态的字段名称与维度，再执行RLDS转换操作。

真机部署时客户端无法连接服务端是什么原因？

首先检查服务器端口是否开放、防火墙规则是否放行；其次确认SSH隧道命令的IP、端口与用户名正确；最后核对服务端与客户端的端口配置一致，且机器人端的unitree_deploy环境依赖完整安装。

训练过程中显存不足如何优化？

可减小批次大小、降低输入图像分辨率、启用梯度累积、减少动作块长度，也可使用多GPU分布式训练，分散单卡显存压力；同时确保关闭不必要的日志与可视化模块，释放显存资源。

模型在仿真中效果良好，真机执行偏差大怎么调整？

优先校准机器人相机内参、本体姿态传感器，保证视觉输入与仿真一致；其次用少量真机数据对模型做微调，适配真实物理环境的动力学差异；同时调整动作执行的滤波参数，降低噪声干扰。

能否适配非G1系列的人形机器人？

可以，需修改constants.py中的动作维度、自感知维度配置，重新标注适配目标机器人的数据集并完成微调，同时对接目标机器人的控制SDK，完成动作输出的接口适配。

模型权重下载缓慢或无法访问如何解决？

可使用Hugging Face镜像站点下载权重，或通过官方提供的国内镜像链接获取，也可使用git lfs工具完整克隆模型仓库，保证权重文件完整下载。

七、相关链接

项目GitHub仓库：https://github.com/unitreerobotics/unifolm-vla

八、总结

UnifoLM-VLA-0是宇树科技面向通用人形机器人操作场景推出的开源视觉-语言-动作大模型，以空间语义增强与多任务泛化为核心能力，依托轻量化训练数据、全流程开源代码、标准化部署流程，填补了从视觉语言理解到机器人物理动作执行的技术缺口，单一模型可覆盖12类真机操作任务，同时兼容仿真测试与真机部署，既可为具身智能研究提供通用基座，也能直接支撑家用、工业场景的机器人操作开发，降低了行业研发门槛，是当前国产具身智能领域具备实用价值与代表性的开源项目。

开源AI大模型

打赏

版权及免责申明：本文由@AI铺子原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/unifolm-vla-0.html

THE END

AI铺子

关注ai行业发展，专注ai工具推荐

+ 关注

UnifoLM-VLA-0：宇树科技开源的通用人形机器人VLA大模型，实现空间语义增强与多任务操作泛化

文章目录

一、UnifoLM-VLA-0是什么

二、核心功能特色

1. 空间语义深度增强

2. 多任务通用操作泛化

3. 高数据效率与鲁棒性

4. 全流程开源与易用适配

三、关键技术细节

1. 模型架构与训练链路

2. 数据体系与格式规范

3. 核心依赖与环境技术栈

4. 推理部署架构

模型权重信息表

四、典型应用场景

1. 家用服务机器人操作

2. 工业辅助与人机协作

3. 具身智能算法研发

4. 仿真与真机验证平台

5. 二次开发与定制化适配

五、标准化使用方法

1. 基础环境安装

2. 数据集准备

3. 模型训练流程

4. 推理测试流程

5. 项目目录使用

六、常见问题解答

七、相关链接

八、总结

相关文章