Kairos-HomeWorld:大晓机器人开源的全屋3D场景生成与机器人训练框架

原创 发布日期:
61

一、Kairos-HomeWorld是什么

Kairos-HomeWorld是由大晓机器人(ACE ROBOTICS)联合香港中文大学多媒体实验室、深圳河套学院开源的全球首个全屋三维可交互世界模型统一框架。它专为解决具身智能领域室内场景生成“单房间局限、全局一致性差、场景不可交互”的行业痛点而生,可通过单一文本指令端到端生成结构连贯、物理合规、物体可交互的完整中国家庭3D仿真环境,为家用服务机器人提供大规模、高保真的本土化训练场景。

该项目不仅是一个场景生成模型,更是一套完整的具身智能训练生态,同步开源全球规模最大的中国家庭专属全屋3D数据集,补齐国内家政机器人本土化仿真训练的数据短板,推动具身智能技术在中国家庭场景的规模化落地。

Kairos-HomeWorld:大晓机器人开源的全屋3D场景生成与机器人训练框架

二、功能特色

1. 全屋级场景一键生成

打破传统方案仅能生成单房间场景的限制,支持输入通俗中文指令(如“生成一套90平新中式两室一厅住房”),自动生成从30㎡一居室到200㎡大平层的完整全屋3D场景,涵盖客厅、卧室、厨房、卫生间等功能分区,户型结构符合中国家庭居住习惯。

2. 物体级全交互能力

生成场景中的每件物体(平均每个场景含15个以上可交互物体)均完整建模材质、密度、摩擦系数、铰链等物理属性,机器人可直接在仿真引擎中执行抓取、移动、堆叠、拉窗帘、倒液体等动作,彻底解决传统仿真场景“只能看不能用”的问题。

3. 本土化数据底座支撑

同步开源30万套中国真实住宅平面图、5000个完整全屋可交互仿真场景、5万件带物理属性物件,覆盖全国各类典型家居户型,完整还原封闭式厨房、干湿分离卫生间、独立阳台等中国家庭专属居住特征,解决海外数据集“水土不服”的痛点。

4. 物理规则自动纠错

内置视觉语言模型驱动的递归闭环校验机制,自动检测并修正“沙发挡门、物体穿墙、家具重叠”等物理违规问题,将家具布局碰撞率控制在行业最优水平,确保生成场景符合真实世界物理逻辑。

5. 低成本高效训练赋能

无需依赖真实房源或人工建模,通过模型即可批量生成多样化中国家庭仿真场景,大幅降低机器人训练的时间与资金成本,同时支持无限拓展场景规模,突破实地采集的数量限制。

三、技术细节

Kairos-HomeWorld 核心采用四阶段分层生成架构(全局结构—局部细节—闭环校验—交互增强),将复杂的全屋生成任务拆解为模块化流程,兼顾生成效率与场景质量。

阶段一:户型骨架生成(全局结构)

  • 首创基于K-D树的平面图结构化表示方法,将真实住宅平面图转化为大语言模型可高效学习的分层文本结构。

  • 大语言模型规划房间布局、确定门窗位置与房间连通关系,从源头避免房间重叠、拓扑断裂等问题,输出标准化2D户型骨架。

阶段二:二维转三维建模(局部细节)

  • 采用“俯视图全局初始化+第一人称细节漫游”分层策略,以阶段一生成的3D建筑外壳锚定整个生成过程。

  • 先从俯视视角放置床、沙发、餐桌等大型家具,再以第一人称视角补充厨房、浴室等空间细节,解决传统2D-3D转换的几何漂移问题。

阶段三:细节纠错优化(闭环校验)

  • 微调视觉语言模型构建递归闭环校验机制,对场景进行多维度检测。

  • 自动识别并修正物体穿墙、家具遮挡动线、功能分区混乱等错误,迭代优化场景结构,确保物理合规与动线合理。

阶段四:可交互物体部署(交互增强)

  • 采用表面中心物体放置算法,为场景内每个物体绑定物理属性(质量、摩擦系数、硬度等)与交互逻辑。

  • 支持机器人执行多模态交互动作,构建可直接用于导航、操作、任务执行训练的仿真环境。

核心技术参数

技术维度 核心参数
生成场景规模 单场景平均15+可交互物体,支持30-200㎡户型
数据集规模 30万套户型图、5000个仿真场景、5万件可交互物件
物理纠错能力 家具布局碰撞率<1%
生成效率 单全屋场景生成耗时<5分钟(单GPU)
适配仿真引擎 Unity、Unreal Engine、PyBullet

Kairos-HomeWorld:大晓机器人开源的全屋3D场景生成与机器人训练框架

四、应用场景

1. 家用服务机器人仿真训练

已落地用于大晓机器人日常训练,支持机器人完成跨房间导航、全屋物品整理、家务操作(扫地、整理衣物、餐具摆放)等复杂长程任务的全流程仿真训练,大幅缩短虚拟到现实的迁移周期。

2. 具身智能算法研发与测试

为高校、科研机构及科创企业提供低成本、大规模的本土化测试环境,支撑空间感知、路径规划、物体操作、多模态交互等核心算法的迭代优化,降低研发门槛。

3. 室内3D场景创作与设计

为室内设计、游戏开发、元宇宙场景搭建提供快速3D建模工具,设计师可通过文本指令快速生成多样化全屋方案,提升设计效率,降低建模成本。

4. 智能家居系统联调测试

模拟不同户型、不同家具布局下的智能家居设备联动场景,测试设备间通信、控制逻辑的稳定性,为智能家居系统的本土化适配提供仿真支撑。

五、使用方法

1. 环境准备

  • 硬件:推荐NVIDIA RTX 4090及以上GPU(显存≥24GB),内存≥64GB

  • 软件:Ubuntu 20.04/22.04,CUDA 11.8+,Python 3.9+

  • 依赖安装:

# 克隆仓库
git clone https://github.com/Kairos-HomeWorld/HomeWorld.git
cd HomeWorld
# 安装依赖
pip install -r requirements.txt
# 下载数据集(可选)
python scripts/download_dataset.py --dataset all

2. 快速生成全屋场景

from kairos_homeworld import SceneGenerator

# 初始化生成器
generator=SceneGenerator()
# 输入文本指令生成场景
prompt = "生成一套90平米三室一厅,现代简约风格,南北通透,带封闭式厨房和干湿分离卫生间"
scene=generator.generate(prompt=prompt, style="modern", size=90)
# 导出场景(支持OBJ/FBX/USD格式)
scene.export("output/scene_90㎡_modern.fbx")
# 加载到仿真引擎(示例:PyBullet)
scene.load_to_engine(engine="pybullet")

3. 机器人训练接口调用

from kairos_homeworld import RobotEnv

# 创建仿真环境
env=RobotEnv(scene_path="output/scene_90㎡_modern.fbx")
# 重置环境
obs=env.reset()
# 执行训练循环
for _ in range(1000):
  action=env.agent.get_action(obs)
  obs, reward, done, info=env.step(action)
  if done:
    obs=env.reset()

4. 数据集使用

  • 数据集路径:./data/chinese_home_dataset/

  • 包含:floor_plans/(30万套户型图)、sim_scenes/(5000个仿真场景)、objects/(5万件可交互物件)

  • 支持直接加载到仿真引擎,或用于模型微调训练。

Kairos-HomeWorld:大晓机器人开源的全屋3D场景生成与机器人训练框架

六、竞品对比

选取DeepMind Genie 2、群核科技SpatialVerse两个主流具身智能3D场景生成项目,从核心能力、本土化适配、数据规模、交互能力、开源属性5个维度对比:

对比维度 Kairos-HomeWorld DeepMind Genie 2 群核科技SpatialVerse
核心能力 全屋级3D场景生成+物体级全交互 单房间/小范围3D环境生成 单房间场景生成+基础物体交互
本土化适配 中国家庭专属(封闭式厨房、干湿分离等) 欧美家庭适配(开放式厨房、大户型) 通用户型,本土化适配较弱
数据集规模 30万套户型图、5000个仿真场景 未公开大规模本土化数据集 约10万套户型图,仿真场景1000+
交互能力 全物体物理交互(抓取、移动、操作) 基础物体交互(点击、移动) 有限物体交互(仅预设动作)
开源属性 完全开源(数据集+模型+代码) 闭源(仅API调用) 部分开源(数据集开源,模型闭源)
生成效率 单全屋场景<5分钟 单房间场景<2分钟 单房间场景<3分钟

七、常见问题解答

Q:Kairos-HomeWorld生成的场景能直接用于真实机器人训练吗?

A:可以。生成场景具备真实物理属性与交互逻辑,且高度还原中国家庭特征,机器人在仿真环境中训练的策略可直接迁移到真实场景,大幅降低现实训练的试错成本。

Q:项目开源后,是否可以免费商用?

A:项目采用MIT开源协议,个人与企业均可免费使用、修改、分发代码与数据集,无需支付版权费用,但需遵守协议约定,保留原始版权声明。

Q:生成场景时出现“物体穿墙”错误怎么办?

A:可通过两种方式解决:1. 优化文本指令,明确标注“家具不穿墙、动线合理”;2. 开启强制纠错模式,在生成代码中添加auto_correct=True,模型会自动修正物理违规问题。

Q:除了中文指令,是否支持英文或其他语言输入?

A:当前版本优先支持中文指令,适配中国家庭场景描述习惯;英文指令支持基础生成能力,但本土化细节(如户型结构、家具布局)适配较弱,后续版本将优化多语言支持。

Q:数据集是否可以单独下载使用,不依赖模型?

A:可以。数据集独立开源,可直接用于其他3D模型训练、场景渲染或机器人仿真环境搭建,无需部署Kairos-HomeWorld主模型。

八、相关链接

  • GitHub仓库:https://github.com/Kairos-HomeWorld/HomeWorld

  • 项目主页:https://kairos-homeworld.github.io/

  • 技术论文(arXiv):https://arxiv.org/pdf/2606.06390

九、总结

Kairos-HomeWorld作为全球首个全屋三维可交互世界模型统一框架,以四阶段分层生成架构为核心,依托大规模中国家庭专属数据集,彻底解决了传统室内场景生成的行业痛点,实现了从文本指令到全屋可交互3D场景的端到端生成。它不仅为家用服务机器人提供了低成本、高效率的本土化仿真训练环境,更推动了具身智能技术与中国家庭场景的深度适配,为智能家居、室内设计等领域提供了强大的技术支撑,是具身智能本土化落地的重要里程碑。

打赏
THE END
作者头像
人工智能研究所
发现AI神器,探索AI技术!