GELab-Zero：阶跃星辰开源的全栈式本地GUI智能体工具包

原创发布日期：2025-12-03

121

一、GELab-Zero是什么？

GELab-Zero是阶跃星辰基于自身研究能力打造的开源GUI智能体工具包，定位为“面向星系级的顶级GUI Agent解决方案”。它的核心使命是解决移动Agent从“可行性验证”向“大规模应用”转型过程中的工程痛点——由于移动应用生态高度碎片化，传统GUI Agent开发需处理多设备ADB连接、依赖安装、权限配置、推理服务部署等繁杂工作，导致开发者难以聚焦核心创新。

为此，GELab-Zero构建了“基础设施+模型”的双核心架构：一方面提供全套即插即用的推理工程基础设施，包揽所有工程化“重活”；另一方面配套4B规模的轻量GUI Agent模型，支持在消费级硬件上本地运行。两者结合实现了“一键启动、全本地部署、全程可控”的使用体验，既兼容所有应用（无需应用厂商适配），又能让用户完全掌控推理流水线，平衡了实用性、隐私性和便捷性。

值得一提的是，该项目的研究成果已获得学术认可——其多轮强化学习（Multi-Turn RL）相关论文已被NeurIPS 2025接收，为技术落地提供了坚实的理论支撑。

二、功能特色

GELab-Zero的功能设计围绕“降低使用门槛、提升场景适配性、保障可控性”三大核心目标，核心特色如下：

1. 全本地部署，隐私与效率兼顾

支持4B规模模型在普通消费级电脑上运行，无需依赖云端服务器。既避免了数据传输过程中的隐私泄露风险，又减少了网络延迟，确保任务执行的实时性。对于注重数据安全的个人用户或企业而言，这一特性尤为关键。

2. 一键启动，零门槛部署

提供统一的部署流水线，自动化处理Python环境依赖、LLM推理配置、Android设备连接等复杂步骤。用户无需手动调试各类参数，即使缺乏深厚的工程化经验，也能通过简单命令快速搭建完整运行环境，大幅降低GUI Agent的使用门槛。

3. 多设备任务分发与轨迹可追溯

支持同时连接多台Android设备，将任务批量分发至不同设备执行。同时自动记录每一步交互轨迹（包括点击坐标、输入文本、应用切换等），不仅便于后续观测Agent行为逻辑，还能实现任务复现，为开发者调试策略或企业排查问题提供便利。

4. 三种Agent模式，适配复杂场景

覆盖三种核心工作模式，可灵活应对不同类型的任务需求：

ReAct循环模式：适用于需要实时决策的交互式任务（如导航查询、信息检索）；
多Agent协作模式：支持多个智能体分工配合，处理多步骤、跨应用的复杂任务（如“查地铁+打车+订餐厅”的出行全流程）；
定时任务模式：可预设任务执行时间，实现自动化调度（如定时领取平台补贴、定时查询公交运营状态）。

5. 兼容多品牌设备与主流应用

凭借GUI交互的通用性，无需应用厂商适配即可兼容市面上绝大多数Android应用（包括外卖、打车、电商、社交、学习类APP），且支持不同品牌、不同型号的Android设备，解决了移动生态碎片化导致的兼容性问题。

6. 轨迹可视化，直观观测执行过程

提供专门的轨迹可视化工具，可通过浏览器访问可视化界面，查看任务执行的完整流程。所有点击、滑动等操作都会在截图上标记，让用户清晰了解Agent的每一步决策，便于优化任务指令或调试模型。

三、技术细节

1. 核心架构组成

GELab-Zero的工程架构采用模块化设计，主要包含以下核心模块（对应仓库目录）：

copilot_agent_client：智能体客户端，负责与设备端交互、执行任务指令；
copilot_agent_server：智能体服务器，处理任务调度、模型推理、轨迹记录；
copilot_front_end：前端交互界面，支持任务配置与可视化操作；
copilot_tools/tools：工具集，包含ADB连接管理、文本处理、设备控制等基础工具；
examples：任务示例脚本，提供单任务运行等快速上手案例；
visualization：轨迹可视化模块，基于Streamlit实现交互流程展示；
配置文件：model_config.yaml（模型参数配置）、requirements.txt（依赖清单）、yadb（数据存储相关）。

2. 模型技术参数

模型规模：4B参数（轻量级，适配消费级硬件）；
支持量化：提供int8（模型大小4.4G，精度损失小）、int4（模型大小2.2G，精度损失较大）两种量化选项，用户可根据硬件配置灵活选择；
推理框架兼容：支持Ollama（推荐个人用户，安装简单）和vLLM（推荐企业用户，推理更稳定）两种本地推理框架；
核心能力：基于多轮强化学习（Multi-Turn RL）优化，擅长GUI界面理解、跨应用交互、复杂任务拆解。

3. 基准测试表现

项目构建了贴近日常生活的基准测试集AndroidDaily，并在多个开源基准中验证了性能，核心测试结果如下：

表1：AndroidDaily静态测试准确率对比（共3146个动作）

模型名称	准确率
GPT-4o	0.196
Gemini-2.5-pro-thinking	0.366
UI-TARS-1.5	0.470
GELab-Zero-4B-preview	0.734

静态测试主要评估Agent对单一动作（点击、输入、应用激活等）的预测准确性，GELab-Zero-4B-preview的准确率显著高于其他模型，体现了其强大的GUI交互理解能力。

表2：AndroidDaily端到端测试场景分布（共235个任务）

场景类别	任务数量	占比	典型任务
交通出行	78	33.19%	打车、导航、公交/地铁查询
购物消费	61	25.96%	电商购物、支付、订单管理
社交沟通	43	18.30%	消息发送、社交平台互动
内容消费	37	15.74%	新闻阅读、视频观看、内容收藏
本地服务	16	6.81%	外卖下单、本地服务预约

端到端测试要求Agent自主完成完整任务，GELab-Zero-4B-preview在该测试中取得75.86%的任务成功率，在真实移动场景中表现优异。此外，在ScreenSpot-V2、OSWorld-G、Android World等开源基准中，该模型也展现了领先于同类开源模型的性能。

四、应用场景

GELab-Zero聚焦日常生活中的高频需求，已验证多个典型应用场景，覆盖“衣食住行、信息消费、娱乐”六大核心维度，具体包括：

1. 推荐类任务

影视推荐：如“查找近期优质科幻电影”，Agent自动打开视频APP（如小米视频），检索最新科幻片榜单并返回结果；
旅游推荐：如“推荐周末亲子旅游目的地”，Agent通过地图APP（如高德地图）、旅游平台（如携程）查询适合儿童的景点，整合距离、评价等信息给出建议。

2. 实用工具类任务

补贴领取：如“在企业福利平台领取餐券”，Agent登录指定平台（如飞连），导航至福利中心，完成餐券领取操作；
交通查询与导航：如“查询地铁1号线是否正常运营，并导航至最近入口”，Agent打开地图APP查询运营状态，规划步行路线并提供导航指引；
词汇学习：如“在百词斩完成当日词汇学习任务”，Agent自动启动百词斩APP，按流程完成单词背诵、测试等步骤。

3. 复杂购物类任务

支持多商品、多条件的精准购物，例如“在饿了么就近的盒马鲜生购买：300g红草莓、125g秘鲁 Bianca蓝莓（直径18mm）、500g时令鲜黄土豆等11种商品”。Agent会自动打开饿了么APP，定位就近门店，逐一搜索商品、核对规格，最终完成下单流程。

4. 信息检索类任务

高赞回答检索：如“在知乎搜索‘如何学习理财’，查看点赞超1万的首个回答”，Agent启动浏览器或知乎APP，执行搜索、筛选高赞内容、提取核心信息等操作；
条件筛选搜索：如“在淘宝查找37码、单价低于100元的白色帆布鞋，将首个符合条件的商品加入收藏”，Agent按规格、价格筛选商品，完成收藏操作。

这些场景的核心共性是“需跨界面、多步骤交互”，且贴近用户日常使用习惯，充分体现了GELab-Zero的实用价值。

GELab-Zero：阶跃星辰开源的全栈式本地GUI智能体工具包

五、使用方法

GELab-Zero的使用需完成“环境搭建→设备配置→模型部署→任务运行”四大步骤，全程提供详细指引，以下是完整操作流程：

前置条件

硬件要求：消费级电脑（支持本地运行4B模型，量化后可降低配置要求）；1台或多台Android设备（支持USB调试）；
软件要求：Python 3.12+；Windows/Mac/Linux操作系统；网络环境（用于下载模型、依赖包）。

步骤1：Python环境搭建

推荐使用Miniforge管理Python环境，兼顾跨平台兼容性与商业友好性：

Windows用户

下载Miniforge：访问https://github.com/conda-forge/miniforge，按指引手动安装，安装时勾选“添加Conda到PATH环境变量”；
激活Conda：打开PowerShell，执行以下命令：
```
conda init powershell
Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
```
终端显示“(base)”即为激活成功；
推荐安装VS Code：用于代码执行与调试，下载地址https://code.visualstudio.com/。

Mac/Linux用户

终端执行命令下载并安装Miniforge：

curl -L -O "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"
bash Miniforge3-$(uname)-$(uname -m).sh

创建并激活专用环境：

conda create -n gelab-zero python=3.12 -y
conda activate gelab-zero

步骤2：LLM推理环境搭建

支持Ollama（推荐个人用户）和vLLM（推荐企业/技术用户）两种方案，以下以Ollama为例：

2.1 安装Ollama

Windows/Mac：访问https://www.aipuzi.cn/ai-softs/ollama.html下载图形化版本，直接安装；

Linux：终端执行一键安装命令：

curl -fsSL https://ollama.com/install.sh | sh

2.2 部署GELab-Zero-4B-preview模型

安装Hugging Face Hub工具（用于下载模型权重）：
```
pip install huggingface_hub
```
加速下载（国内用户可选）：

Windows：$env:HF_ENDPOINT = "https://hf-mirror.com"
Linux/Mac：export HF_ENDPOINT="https://hf-mirror.com"

下载模型权重：

hf download --no-force-download stepfun-ai/GELab-Zero-4B-preview --local-dir gelab-zero-4b-preview

导入Ollama：
```
cd gelab-zero-4b-preview
ollama create gelab-zero-4b-preview -f Modelfile
```
（Windows用户若报错，需指定Ollama安装路径，例如：C:\Users\admin\AppData\Local\Programs\Ollama\ollama.exe create gelab-zero-4b-preview -f Modelfile）

模型量化（可选）：

# int8量化（推荐）
ollama create -q q8_0 gelab-zero-4b-preview
# int4量化（低配置电脑可选）
ollama create -q q4_0 gelab-zero-4b-preview
# 恢复原始精度
ollama create -q f16 gelab-zero-4b-preview

测试模型：

Windows：打开Ollama APP，选择模型发送消息测试；

Mac/Linux：终端执行以下命令，返回模型回复即为成功：

curl -X POST http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
   "model": "gelab-zero-4b-preview",
   "messages": [{"role": "user", "content": "Hello, GELab-Zero!"}]
  }'

步骤3：Android设备执行环境配置

3.1 启用开发者模式与USB调试

手机打开“设置”，找到“关于手机”/“系统”，连续点击“版本号”10次以上，激活开发者模式；
返回设置主菜单，找到“开发者选项”，启用“USB调试”（核心必选），建议同时启用“USB调试（安全设置）”；
不同品牌手机操作略有差异，可搜索“XX手机如何启用开发者模式”获取具体教程。

3.2 安装ADB工具

ADB（Android Debug Bridge）是电脑与Android设备通信的核心工具：

Windows：下载https://dl.google.com/android/repository/platform-tools-latest-windows.zip，解压后将文件夹路径添加到系统环境变量（具体步骤：此电脑→属性→高级系统设置→环境变量→Path→编辑→新增解压路径）；

Mac/Linux：通过包管理器安装：

# Mac（需先安装Homebrew：ruby -e $(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)）
brew cask install android-platform-tools
# Linux（以Ubuntu为例）
sudo apt-get install android-tools-adb

3.3 连接设备

用USB数据线连接手机与电脑；
终端执行adb devices，若显示设备ID（如“AN2CVB4C28000731 device”），说明连接成功；
首次连接需在手机上点击“允许USB调试”授权。

步骤4：GELab-Zero运行环境部署

克隆仓库：

git clone https://github.com/stepfun-ai/gelab-zero
cd gelab-zero

安装依赖：
```
pip install -r requirements.txt
```
运行单任务示例：
```
python examples/run_single_task.py
```

步骤5：轨迹可视化（可选）

启动可视化服务：

局域网访问（其他设备可连接）：

streamlit run --server.address 0.0.0.0 visualization/main_page.py --server.port 33503

本地访问：

streamlit run --server.address 127.0.0.1 visualization/main_page.py --server.port 33503

浏览器访问http://localhost:33503，输入任务会话ID，即可查看完整交互轨迹（点击、滑动等操作会标记在截图上）。

六、常见问题解答（FAQ）

1. 安装Python时提示版本不兼容？

答：GELab-Zero要求Python 3.12+，若系统安装的版本过低，需通过Miniforge创建3.12+版本的独立环境（步骤1已详细说明），避免修改系统默认Python版本。

2. ADB连接失败（执行`adb devices`无设备）？

答：可能原因及解决方案：

未启用USB调试：重新检查手机“开发者选项”中的USB调试开关；
USB线缆问题：更换原装或支持数据传输的线缆（部分充电线仅支持充电）；
未授权调试：手机连接电脑后，确保弹出授权提示并点击“允许”；
环境变量未配置（Windows）：重新检查ADB工具的路径是否添加到系统Path中。

3. 模型下载速度慢或失败？

答：国内用户可通过设置HF_ENDPOINT镜像加速（步骤2.2已提供命令）；若仍失败，可直接访问Hugging Face仓库（https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview）手动下载模型权重，解压后放入指定目录。

4. 运行任务时模型推理卡顿？

答：可尝试以下优化：

对模型进行量化（推荐int8量化，步骤2.2已说明）；
关闭电脑后台其他占用资源的程序；
若使用vLLM框架，可调整推理参数（如batch size）提升效率。

5. 多设备管理时如何分配任务？

答：确保所有设备均已通过ADB成功连接（adb devices可显示所有设备ID），在任务配置脚本中指定设备ID列表，即可实现任务批量分发，具体可参考examples目录下的多设备任务示例（项目后续将补充更详细的多设备调度文档）。

6. 任务执行失败（如Agent找不到目标按钮）？

答：可能是应用版本或设备分辨率差异导致界面元素位置变化，建议：

确保测试应用为最新版本；
检查设备是否为常见分辨率（项目优先适配主流Android设备）；
通过轨迹可视化工具查看Agent的错误操作，调整任务指令的描述精度。

七、相关链接

GitHub仓库：https://github.com/stepfun-ai/gelab-zero
模型下载（Hugging Face）：https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview

八、总结

GELab-Zero是一款兼顾工程化实用性与开源易用性的GUI智能体工具包，通过“轻量模型+全套基础设施”的整合方案，解决了移动Agent开发中的兼容性、部署复杂度、隐私安全等核心痛点。其本地部署、一键启动、多设备支持等特性降低了GUI Agent的使用门槛，而在AndroidDaily等基准测试中的优异表现验证了其技术可靠性，可广泛应用于日常购物、交通出行、信息检索等高频场景。无论是想要快速验证创新思路的Agent开发者，还是需要将自动化能力集成到产品中的企业用户，都能从该项目中获得高效支持，无需投入大量精力搭建工程化基础，从而聚焦核心业务创新。作为开源项目，GELab-Zero还将通过社区交流持续优化，为GUI智能体的大规模落地提供更坚实的支撑。

GELab-Zero AI智能体 Android自动化开源工具 4B轻量模型

打赏

版权及免责申明：本文由@人工智能研究所原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/gelab-zero.html

THE END

人工智能研究所

发现AI神器，探索AI技术！

+ 关注

GELab-Zero：阶跃星辰开源的全栈式本地GUI智能体工具包

文章目录

一、GELab-Zero是什么？

二、功能特色

1. 全本地部署，隐私与效率兼顾

2. 一键启动，零门槛部署

3. 多设备任务分发与轨迹可追溯

4. 三种Agent模式，适配复杂场景

5. 兼容多品牌设备与主流应用

6. 轨迹可视化，直观观测执行过程

三、技术细节

1. 核心架构组成

2. 模型技术参数

3. 基准测试表现

表1：AndroidDaily静态测试准确率对比（共3146个动作）

表2：AndroidDaily端到端测试场景分布（共235个任务）

四、应用场景

1. 推荐类任务

2. 实用工具类任务

3. 复杂购物类任务

4. 信息检索类任务

五、使用方法

前置条件

步骤1：Python环境搭建

Windows用户

Mac/Linux用户

步骤2：LLM推理环境搭建

2.1 安装Ollama

2.2 部署GELab-Zero-4B-preview模型

步骤3：Android设备执行环境配置

3.1 启用开发者模式与USB调试

3.2 安装ADB工具

3.3 连接设备

步骤4：GELab-Zero运行环境部署

步骤5：轨迹可视化（可选）

六、常见问题解答（FAQ）

1. 安装Python时提示版本不兼容？

2. ADB连接失败（执行adb devices无设备）？

3. 模型下载速度慢或失败？

4. 运行任务时模型推理卡顿？

5. 多设备管理时如何分配任务？

6. 任务执行失败（如Agent找不到目标按钮）？

七、相关链接

八、总结

相关文章

2. ADB连接失败（执行`adb devices`无设备）？