ACE-Ego-0:大晓机器人联合港中文开源的跨本体通用具身视觉语言动作训练框架
一、ACE-Ego-0是什么
ACE-Ego-0 是由大晓机器人(ACERobotics-VLA)联合香港中文大学MMLab、清华大学、上海交通大学联合研发并开源的以人为中心视觉-语言-动作(VLA)具身机器人基础框架。
行业传统VLA模型普遍采用“以机器为中心”的训练路线,依赖工程师使用VR、操纵杆采集海量真机遥操作轨迹,单条高质量动作数据采集成本高、周期长,难以大规模扩张,且跨机器人机型适配成本极高。ACE-Ego-0提出全新研发范式,核心创新是利用海量低成本人类第一视角(Ego)日常交互视频,搭配少量机器人真机、仿真数据完成联合预训练,统一消除人、不同机械臂、人形机器人之间的视觉、本体、时序、标签质量四重异构鸿沟,实现一套基础模型兼容单臂、双臂、人形等多种机器人硬件,在两大全球权威具身操作仿真基准同时登顶SOTA,是国内首个实现人类视频规模化赋能机器人操控的开源完整VLA工程化方案。
项目配套完整训练代码、预处理流水线、预训练权重、仿真复现脚本、真机部署驱动,完整开放数据集处理逻辑,面向科研机构、机器人企业、独立开发者提供可落地的端到端机器人操控开发工具链。其核心实验成绩:RoboCasa GR1 TableTop桌面操作基准平均成功率72.8%;RoboTwin 2.0强随机化仿真基准Easy场景91.12%、Hard高难场景90.62%,场景扰动下性能衰减仅0.5%,鲁棒性大幅领先同期竞品模型。
二、功能特色
1. 低成本规模化数据预训练能力
无需海量真机遥操作采集,依托1480小时人类第一视角视频作为扩充数据源,搭配4530小时机器人真机+仿真数据混合训练,将机器人数据采集成本降低60%以上;普通日常手持拍摄的第一人称视频均可作为训练素材,大幅降低具身大模型数据门槛。
2. 一脑多型跨机器人本体兼容
支持单臂机械臂、双臂协作机器人、人形机器人统一适配,更换全新机器人硬件仅需200条以内真机轨迹微调即可完成部署;通过URDF机器人本体文件编码实现形态条件控制,无需针对不同机型重新训练基座模型,显著减少多机型开发工作量。
3. 端到端统一视觉语言动作闭环
基于通用预训练视觉语言模型(VLM)搭建一体化架构,输入自然语言指令+单目相机RGB画面,直接输出连续机器人末端动作片段,无感知、规划、控制模块割裂带来的信息损耗,真机推理延迟最低控制至100ms以内,满足实时抓取、分拣操作需求。
4. 强环境鲁棒性,抗视觉扰动
在物体摆放偏移、光照变化、杂物遮挡、物体尺寸随机缩放的强随机化仿真场景中保持稳定高成功率,真实商超、桌面杂乱环境零样本泛化能力突出;双层自适应损失机制过滤人类视频噪声标签,兼顾大规模场景多样性与真机控制精度。
5. 全链路开源工程化配套
仓库完整开放五大模块:人类视频伪动作提取管线、多模态联合预训练脚本、下游机器人微调工具、仿真环境复现工程、真机硬件部署驱动;提供多档预训练权重,支持单卡、多卡分布式训练,兼容主流A100、RTX 4090、H100算力硬件,适配Linux主流服务器环境。
6. 自然语言零代码任务定义
无需编写机器人运动控制代码,通过自然语言描述任务即可驱动机器人完成分拣、打包、收纳、整理等复合长时序任务;支持多轮语言指令修正、任务拆解、局部动作重规划,降低机器人操作开发专业门槛。

三、技术细节
3.1 整体模型架构
ACE-Ego-0采用VLM主干+跨模态融合层+动作专家预测头三段式端到端Transformer架构:
视觉编码器:基于ViT视觉Transformer处理机器人单目RGB图像,提取全局空间特征,统一对齐人类第一视角相机坐标系与机器人头部相机坐标系;
语言编码器:轻量化LLM处理自然语言任务指令,输出语义向量与视觉特征做交叉注意力融合;
本体条件编码模块:输入机器人URDF关节结构文件,通过图神经网络编码机器人连杆、关节参数特征,嵌入融合层实现形态适配;
时序动作分块预测头:输出固定物理时长的连续末端执行器位移动作块,而非单帧离散动作,提升长时序任务连贯性,采用流匹配(Flow Matching)生成动作轨迹,推理步数更少、速度更快。
3.2 四大核心异构对齐机制(项目核心技术壁垒)
(1)统一相机空间动作表征(解决视觉空间不匹配)
采用3D手部重建算法提取人类视频手部关键点,将人手运动映射至相机坐标系下末端位移增量;所有人类、机器人数据统一在相机空间表达动作,消除人手与机器夹爪空间观测偏差,保证人与机器人视觉观察逻辑完全对齐。
(2)URDF本体形态条件编码(解决硬件结构不匹配)
将任意机器人URDF描述文件转换为固定维度形态嵌入向量,作为全局条件输入模型;训练阶段同步混合多机型机器人数据,推理时仅更换URDF编码即可切换硬件,实现一套基座模型适配多类机械结构。
(3)时间对齐动态分块(解决数据帧率不匹配)
人类视频30fps、机器人控制10Hz频率差异通过物理时长分块统一,不以固定帧数切割动作,而是按固定0.5s物理窗口划分动作片段;搭配分桶采样策略平衡长短时序样本,消除不同数据源时序粒度冲突,稳定梯度更新。
(4)可靠性自适应双层目标函数(解决标签质量不匹配)
设置分层加权损失体系:机器人传感器采集真值数据作为主损失,赋予最高权重保证操控精度;人类视频重建伪动作作为辅助损失,根据3D重建平滑度、置信度动态分配权重,高清晰手部片段权重提升、噪声模糊片段权重衰减,既利用海量人类场景扩充泛化能力,又不牺牲真机操作精准度。
3.3 数据集构成
总训练数据规模约6010小时,分为两大数据源:
机器人&仿真数据:4530小时,覆盖单臂、双臂、人形机器人桌面抓取、分拣、打包、收纳标准化轨迹;
人类Ego第一视角视频:1480小时,公开日常手持拍摄交互视频,通过3D重建自动生成伪动作标注,无需人工标注成本。
3.4 硬件与算力适配
训练最低配置:单张RTX 4090 24G显存;分布式训练支持多机多卡DDP框架;真机部署支持NVIDIA边缘计算卡,单目RGB相机即可完成全流程感知,无需昂贵深度相机。
四、应用场景
1. 商超零售柔性履约
货架商品分拣、塑料袋封装、鞋服入盒、小件货品打包、库存整理;支持杂乱货架多品类混合抓取,适配无人超市、前置仓自动化作业,项目真机双臂ARX机器人实测6项零售任务平均成功率78.3%。
2. 轻工业柔性制造
小型零部件装配、物料分拣、工件摆放、成品收纳;中小工厂无需定制化编程,通过语言指令快速切换加工任务,降低产线机器人调试成本。
3. 科研教育机器人平台
高校、实验室具身智能算法研究,快速搭建VLA模型训练基线;机器人专业教学实训,开源完整代码便于二次开发、算法对比实验。
4. 家用服务人形机器人
桌面杂物整理、餐具收纳、小型物品搬运;依托海量人类日常居家视频预训练,零样本适配家庭非结构化杂乱环境。
5. 仓储物流小件分拣
快递小件归类、包裹摆放、物料周转箱整理,适配中小电商仓库轻量化自动化改造。

五、使用方法
步骤1:环境依赖部署
克隆官方GitHub仓库
git clone https://github.com/ACERobotics-VLA/ACE-Ego-0.git cd ACE-Ego-0
安装Python依赖,环境要求Python3.10、CUDA12.1
pip install -r requirements.txt
编译URDF图编码C++扩展模块,完成机器人本体解析工具编译。
步骤2:数据预处理(两种路线可选)
路线A:使用官方预处理脚本处理自有人类第一视角视频,自动完成3D手部重建、伪动作标注生成;
路线B:直接加载官方开源处理好的混合数据集,跳过自建数据流程。
步骤3:模型预训练/微调
基座联合预训练:执行
train_ego_vla.py,混合人类视频+机器人数据完成基础模型训练;下游机器人微调:导入对应机型URDF文件与少量真机轨迹,执行
finetune_robot.py快速适配硬件。
步骤4:仿真环境复现
运行sim_evaluate.py,一键启动RoboCasa、RoboTwin 2.0仿真平台,自动输出任务成功率评测指标。
步骤5:真机硬件部署
加载微调完成权重,连接单目相机与机械臂驱动,执行robot_infer.py,输入自然语言指令实时驱动机器人完成操作。
六、竞品对比
选取行业三款主流开源/商用VLA模型:英伟达GR00T N1、Physical Intelligence π0.5、京东JoyAI-RA,从核心路线、数据依赖、跨机型能力、鲁棒性、开源程度、落地成本六大维度横向对比。
| 对比维度 | ACE-Ego-0 | 英伟达GR00T N1 | π0.5 | JoyAI-RA |
|---|---|---|---|---|
| 核心训练范式 | 以人为中心,人类Ego视频+少量机器人数据联合预训练 | 以机器为中心,海量机器人仿真数据为主,无大规模人类视频协同训练 | 以机器为中心,依赖专属私有机器人遥操作数据集 | 以机器为中心,仅国内零售机器人真机数据训练 |
| 数据采集成本 | 低,可复用普通人类第一视角视频,真机数据需求少 | 中,需大量机器人仿真采集,真机微调仍需数百条轨迹 | 极高,私有专属遥操作数据,外部团队无法低成本复刻 | 中,仅适配自有零售机器人,跨机型数据需重新采集 |
| 跨机器人兼容能力 | 极强,URDF形态编码,单基座适配单臂/双臂/人形,微调样本≤200条 | 中等,仅适配英伟达自有机械臂,第三方机型适配难度高 | 弱,仅支持合作定制机型,不开放通用形态适配模块 | 弱,仅适配京东自研零售机械臂,无法通用其他硬件 |
| 强扰动场景鲁棒性 | 极强,RoboTwin Hard基准90.62%,扰动衰减仅0.5% | 中等,强随机化场景成功率下降8%~12% | 强,但数据集私有无法复现 | 较差,仅适配规整货架场景,杂物遮挡任务失效明显 |
| 开源完整度 | 全开源:训练代码、预处理、权重、仿真、真机驱动完整开放 | 部分开源,仅模型架构公开,完整数据集、真机部署工具闭源 | 架构论文公开,权重、训练数据闭源,仅合作企业开放API | 仅基础推理代码开源,训练管线不对外开放 |
| 中小团队落地门槛 | 极低,单24G消费级显卡即可训练,无硬件绑定 | 较高,推荐A100专业算力,硬件偏向英伟达自有机器人 | 极高,仅头部企业可获取合作权限 | 中等,硬件绑定京东自有机器人设备 |
七、常见问题解答(FAQ)
Q1:ACE-Ego-0和其他VLA模型最核心的区别是什么?
传统VLA模型全部依靠机器人自身交互数据训练,扩充数据只能不断投入人力操作机器人;ACE-Ego-0创新引入海量低成本人类第一视角视频作为核心扩充数据源,通过四大异构对齐机制解决人与机器人数据无法混合训练的行业痛点,用极低的数据成本实现更高泛化性能,也是目前国内唯一完整开源该技术路线的具身VLA框架。
Q2:没有机器人真机,是否可以使用该项目?
可以。仓库内置RoboCasa、RoboTwin 2.0两套完整仿真环境,无需实体机械臂,仅依靠显卡算力就能完成模型训练、算法验证、基准性能评测,高校科研、算法研发团队可纯仿真开展实验。
Q3:训练模型最低需要什么显卡?
单卡最低支持24G显存RTX 4090/3090Ti消费级显卡,仅做下游微调;完整基座预训练建议使用40G以上A100/H100专业算力卡,多卡分布式训练脚本官方完整提供。
Q4:自有其他品牌机械臂,能否适配ACE-Ego-0?
可以,只要硬件提供标准URDF运动学描述文件即可。新机型仅需采集100~200条真机动作轨迹微调基座模型,无需重新从零预训练,大幅降低多硬件适配成本。
Q5:人类第一视角视频需要专业设备拍摄吗?
不需要,手机、运动相机日常手持拍摄的居家、操作类第一人称视频均可作为训练素材,项目内置自动化3D手部重建管线,无需人工标注动作标签,自动生成伪动作训练监督信号。
Q6:模型是否支持商用二次开发?
项目开源协议在GitHub仓库根目录完整标注,学术研究可免费无限制使用;企业商用需遵循开源协议条款,商用落地可基于代码自由修改、集成自有机器人控制系统。
Q7:为什么模型在强随机化仿真场景性能衰减远低于竞品?
核心依靠可靠性自适应双层损失函数与相机统一空间表征,人类海量多样居家视频让模型提前学习各类物体摆放、光照变化场景;同时训练时加入分桶随机采样,强制模型适应各类视觉扰动,真机与仿真数据混合训练进一步提升环境适应性。
Q8:国内网络访问GitHub仓库缓慢如何解决?
可使用GitHub镜像站点克隆代码,或前往项目官方主页下载打包好的权重与代码压缩包;预训练权重支持国内云盘分流下载,无需海外直连。
八、相关链接
GitHub代码仓库:https://github.com/ACERobotics-VLA/ACE-Ego-0
ACE-Ego项目官方主页:https://acerobotics-vla.github.io/ACE-Ego/
技术论文arXiv链接:https://arxiv.org/abs/2606.17200
九、总结
ACE-Ego-0作为一套全开源、工程化落地的以人为中心VLA机器人框架,突破性打通海量低成本人类第一视角视频与机器人训练数据的混合训练通路,通过统一空间表征、本体编码、时序分块、自适应损失四大核心技术系统性解决行业长期存在的数据成本高、跨机型适配难、环境泛化弱三大痛点,在两大国际主流具身仿真基准双双登顶SOTA,配套完整从数据预处理、模型训练、仿真验证到真机部署的全链路开源工具链,大幅降低科研机构与中小机器人企业研发具身智能模型的算力、数据、硬件门槛,可广泛覆盖零售履约、轻工业制造、科研教学、家用服务机器人等多元实体场景,为国内低成本规模化具身智能落地提供可直接复用的完整技术底座。
版权及免责申明:本文由@dotaai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/ace-ego-0.html

