GELab-Zero:阶跃星辰开源的全栈式本地GUI智能体工具包
一、GELab-Zero是什么?
GELab-Zero是阶跃星辰基于自身研究能力打造的开源GUI智能体工具包,定位为“面向星系级的顶级GUI Agent解决方案”。它的核心使命是解决移动Agent从“可行性验证”向“大规模应用”转型过程中的工程痛点——由于移动应用生态高度碎片化,传统GUI Agent开发需处理多设备ADB连接、依赖安装、权限配置、推理服务部署等繁杂工作,导致开发者难以聚焦核心创新。
为此,GELab-Zero构建了“基础设施+模型”的双核心架构:一方面提供全套即插即用的推理工程基础设施,包揽所有工程化“重活”;另一方面配套4B规模的轻量GUI Agent模型,支持在消费级硬件上本地运行。两者结合实现了“一键启动、全本地部署、全程可控”的使用体验,既兼容所有应用(无需应用厂商适配),又能让用户完全掌控推理流水线,平衡了实用性、隐私性和便捷性。
值得一提的是,该项目的研究成果已获得学术认可——其多轮强化学习(Multi-Turn RL)相关论文已被NeurIPS 2025接收,为技术落地提供了坚实的理论支撑。
二、功能特色
GELab-Zero的功能设计围绕“降低使用门槛、提升场景适配性、保障可控性”三大核心目标,核心特色如下:
1. 全本地部署,隐私与效率兼顾
支持4B规模模型在普通消费级电脑上运行,无需依赖云端服务器。既避免了数据传输过程中的隐私泄露风险,又减少了网络延迟,确保任务执行的实时性。对于注重数据安全的个人用户或企业而言,这一特性尤为关键。
2. 一键启动,零门槛部署
提供统一的部署流水线,自动化处理Python环境依赖、LLM推理配置、Android设备连接等复杂步骤。用户无需手动调试各类参数,即使缺乏深厚的工程化经验,也能通过简单命令快速搭建完整运行环境,大幅降低GUI Agent的使用门槛。
3. 多设备任务分发与轨迹可追溯
支持同时连接多台Android设备,将任务批量分发至不同设备执行。同时自动记录每一步交互轨迹(包括点击坐标、输入文本、应用切换等),不仅便于后续观测Agent行为逻辑,还能实现任务复现,为开发者调试策略或企业排查问题提供便利。
4. 三种Agent模式,适配复杂场景
覆盖三种核心工作模式,可灵活应对不同类型的任务需求:
ReAct循环模式:适用于需要实时决策的交互式任务(如导航查询、信息检索);
多Agent协作模式:支持多个智能体分工配合,处理多步骤、跨应用的复杂任务(如“查地铁+打车+订餐厅”的出行全流程);
定时任务模式:可预设任务执行时间,实现自动化调度(如定时领取平台补贴、定时查询公交运营状态)。
5. 兼容多品牌设备与主流应用
凭借GUI交互的通用性,无需应用厂商适配即可兼容市面上绝大多数Android应用(包括外卖、打车、电商、社交、学习类APP),且支持不同品牌、不同型号的Android设备,解决了移动生态碎片化导致的兼容性问题。
6. 轨迹可视化,直观观测执行过程
提供专门的轨迹可视化工具,可通过浏览器访问可视化界面,查看任务执行的完整流程。所有点击、滑动等操作都会在截图上标记,让用户清晰了解Agent的每一步决策,便于优化任务指令或调试模型。
三、技术细节
1. 核心架构组成
GELab-Zero的工程架构采用模块化设计,主要包含以下核心模块(对应仓库目录):
copilot_agent_client:智能体客户端,负责与设备端交互、执行任务指令;copilot_agent_server:智能体服务器,处理任务调度、模型推理、轨迹记录;copilot_front_end:前端交互界面,支持任务配置与可视化操作;copilot_tools/tools:工具集,包含ADB连接管理、文本处理、设备控制等基础工具;examples:任务示例脚本,提供单任务运行等快速上手案例;visualization:轨迹可视化模块,基于Streamlit实现交互流程展示;配置文件:
model_config.yaml(模型参数配置)、requirements.txt(依赖清单)、yadb(数据存储相关)。
2. 模型技术参数
模型规模:4B参数(轻量级,适配消费级硬件);
支持量化:提供int8(模型大小4.4G,精度损失小)、int4(模型大小2.2G,精度损失较大)两种量化选项,用户可根据硬件配置灵活选择;
推理框架兼容:支持Ollama(推荐个人用户,安装简单)和vLLM(推荐企业用户,推理更稳定)两种本地推理框架;
核心能力:基于多轮强化学习(Multi-Turn RL)优化,擅长GUI界面理解、跨应用交互、复杂任务拆解。
3. 基准测试表现
项目构建了贴近日常生活的基准测试集AndroidDaily,并在多个开源基准中验证了性能,核心测试结果如下:
表1:AndroidDaily静态测试准确率对比(共3146个动作)
| 模型名称 | 准确率 |
|---|---|
| GPT-4o | 0.196 |
| Gemini-2.5-pro-thinking | 0.366 |
| UI-TARS-1.5 | 0.470 |
| GELab-Zero-4B-preview | 0.734 |
静态测试主要评估Agent对单一动作(点击、输入、应用激活等)的预测准确性,GELab-Zero-4B-preview的准确率显著高于其他模型,体现了其强大的GUI交互理解能力。
表2:AndroidDaily端到端测试场景分布(共235个任务)
| 场景类别 | 任务数量 | 占比 | 典型任务 |
|---|---|---|---|
| 交通出行 | 78 | 33.19% | 打车、导航、公交/地铁查询 |
| 购物消费 | 61 | 25.96% | 电商购物、支付、订单管理 |
| 社交沟通 | 43 | 18.30% | 消息发送、社交平台互动 |
| 内容消费 | 37 | 15.74% | 新闻阅读、视频观看、内容收藏 |
| 本地服务 | 16 | 6.81% | 外卖下单、本地服务预约 |
端到端测试要求Agent自主完成完整任务,GELab-Zero-4B-preview在该测试中取得75.86%的任务成功率,在真实移动场景中表现优异。此外,在ScreenSpot-V2、OSWorld-G、Android World等开源基准中,该模型也展现了领先于同类开源模型的性能。
四、应用场景
GELab-Zero聚焦日常生活中的高频需求,已验证多个典型应用场景,覆盖“衣食住行、信息消费、娱乐”六大核心维度,具体包括:
1. 推荐类任务
影视推荐:如“查找近期优质科幻电影”,Agent自动打开视频APP(如小米视频),检索最新科幻片榜单并返回结果;
旅游推荐:如“推荐周末亲子旅游目的地”,Agent通过地图APP(如高德地图)、旅游平台(如携程)查询适合儿童的景点,整合距离、评价等信息给出建议。
2. 实用工具类任务
补贴领取:如“在企业福利平台领取餐券”,Agent登录指定平台(如飞连),导航至福利中心,完成餐券领取操作;
交通查询与导航:如“查询地铁1号线是否正常运营,并导航至最近入口”,Agent打开地图APP查询运营状态,规划步行路线并提供导航指引;
词汇学习:如“在百词斩完成当日词汇学习任务”,Agent自动启动百词斩APP,按流程完成单词背诵、测试等步骤。
3. 复杂购物类任务
支持多商品、多条件的精准购物,例如“在饿了么就近的盒马鲜生购买:300g红草莓、125g秘鲁 Bianca蓝莓(直径18mm)、500g时令鲜黄土豆等11种商品”。Agent会自动打开饿了么APP,定位就近门店,逐一搜索商品、核对规格,最终完成下单流程。
4. 信息检索类任务
高赞回答检索:如“在知乎搜索‘如何学习理财’,查看点赞超1万的首个回答”,Agent启动浏览器或知乎APP,执行搜索、筛选高赞内容、提取核心信息等操作;
条件筛选搜索:如“在淘宝查找37码、单价低于100元的白色帆布鞋,将首个符合条件的商品加入收藏”,Agent按规格、价格筛选商品,完成收藏操作。
这些场景的核心共性是“需跨界面、多步骤交互”,且贴近用户日常使用习惯,充分体现了GELab-Zero的实用价值。

五、使用方法
GELab-Zero的使用需完成“环境搭建→设备配置→模型部署→任务运行”四大步骤,全程提供详细指引,以下是完整操作流程:
前置条件
硬件要求:消费级电脑(支持本地运行4B模型,量化后可降低配置要求);1台或多台Android设备(支持USB调试);
软件要求:Python 3.12+;Windows/Mac/Linux操作系统;网络环境(用于下载模型、依赖包)。
步骤1:Python环境搭建
推荐使用Miniforge管理Python环境,兼顾跨平台兼容性与商业友好性:
Windows用户
下载Miniforge:访问https://github.com/conda-forge/miniforge,按指引手动安装,安装时勾选“添加Conda到PATH环境变量”;
激活Conda:打开PowerShell,执行以下命令:
conda init powershell Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
终端显示“(base)”即为激活成功;
推荐安装VS Code:用于代码执行与调试,下载地址https://code.visualstudio.com/。
Mac/Linux用户
终端执行命令下载并安装Miniforge:
curl -L -O "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh" bash Miniforge3-$(uname)-$(uname -m).sh
创建并激活专用环境:
conda create -n gelab-zero python=3.12 -y conda activate gelab-zero
步骤2:LLM推理环境搭建
支持Ollama(推荐个人用户)和vLLM(推荐企业/技术用户)两种方案,以下以Ollama为例:
2.1 安装Ollama
Windows/Mac:访问https://www.aipuzi.cn/ai-softs/ollama.html下载图形化版本,直接安装;
Linux:终端执行一键安装命令:
curl -fsSL https://ollama.com/install.sh | sh
2.2 部署GELab-Zero-4B-preview模型
安装Hugging Face Hub工具(用于下载模型权重):
pip install huggingface_hub
加速下载(国内用户可选):
Windows:
$env:HF_ENDPOINT = "https://hf-mirror.com"Linux/Mac:
export HF_ENDPOINT="https://hf-mirror.com"下载模型权重:
hf download --no-force-download stepfun-ai/GELab-Zero-4B-preview --local-dir gelab-zero-4b-preview
导入Ollama:
cd gelab-zero-4b-preview ollama create gelab-zero-4b-preview -f Modelfile
(Windows用户若报错,需指定Ollama安装路径,例如:
C:\Users\admin\AppData\Local\Programs\Ollama\ollama.exe create gelab-zero-4b-preview -f Modelfile)模型量化(可选):
# int8量化(推荐) ollama create -q q8_0 gelab-zero-4b-preview # int4量化(低配置电脑可选) ollama create -q q4_0 gelab-zero-4b-preview # 恢复原始精度 ollama create -q f16 gelab-zero-4b-preview
测试模型:
Windows:打开Ollama APP,选择模型发送消息测试;
Mac/Linux:终端执行以下命令,返回模型回复即为成功:
curl -X POST http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gelab-zero-4b-preview", "messages": [{"role": "user", "content": "Hello, GELab-Zero!"}] }'
步骤3:Android设备执行环境配置
3.1 启用开发者模式与USB调试
手机打开“设置”,找到“关于手机”/“系统”,连续点击“版本号”10次以上,激活开发者模式;
返回设置主菜单,找到“开发者选项”,启用“USB调试”(核心必选),建议同时启用“USB调试(安全设置)”;
不同品牌手机操作略有差异,可搜索“XX手机如何启用开发者模式”获取具体教程。
3.2 安装ADB工具
ADB(Android Debug Bridge)是电脑与Android设备通信的核心工具:
Windows:下载https://dl.google.com/android/repository/platform-tools-latest-windows.zip,解压后将文件夹路径添加到系统环境变量(具体步骤:此电脑→属性→高级系统设置→环境变量→Path→编辑→新增解压路径);
Mac/Linux:通过包管理器安装:
# Mac(需先安装Homebrew:ruby -e $(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)) brew cask install android-platform-tools # Linux(以Ubuntu为例) sudo apt-get install android-tools-adb
3.3 连接设备
用USB数据线连接手机与电脑;
终端执行
adb devices,若显示设备ID(如“AN2CVB4C28000731 device”),说明连接成功;首次连接需在手机上点击“允许USB调试”授权。
步骤4:GELab-Zero运行环境部署
克隆仓库:
git clone https://github.com/stepfun-ai/gelab-zero cd gelab-zero
安装依赖:
pip install -r requirements.txt
运行单任务示例:
python examples/run_single_task.py
步骤5:轨迹可视化(可选)
启动可视化服务:
局域网访问(其他设备可连接):
streamlit run --server.address 0.0.0.0 visualization/main_page.py --server.port 33503
本地访问:
streamlit run --server.address 127.0.0.1 visualization/main_page.py --server.port 33503
浏览器访问
http://localhost:33503,输入任务会话ID,即可查看完整交互轨迹(点击、滑动等操作会标记在截图上)。
六、常见问题解答(FAQ)
1. 安装Python时提示版本不兼容?
答:GELab-Zero要求Python 3.12+,若系统安装的版本过低,需通过Miniforge创建3.12+版本的独立环境(步骤1已详细说明),避免修改系统默认Python版本。
2. ADB连接失败(执行adb devices无设备)?
答:可能原因及解决方案:
未启用USB调试:重新检查手机“开发者选项”中的USB调试开关;
USB线缆问题:更换原装或支持数据传输的线缆(部分充电线仅支持充电);
未授权调试:手机连接电脑后,确保弹出授权提示并点击“允许”;
环境变量未配置(Windows):重新检查ADB工具的路径是否添加到系统Path中。
3. 模型下载速度慢或失败?
答:国内用户可通过设置HF_ENDPOINT镜像加速(步骤2.2已提供命令);若仍失败,可直接访问Hugging Face仓库(https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview)手动下载模型权重,解压后放入指定目录。
4. 运行任务时模型推理卡顿?
答:可尝试以下优化:
对模型进行量化(推荐int8量化,步骤2.2已说明);
关闭电脑后台其他占用资源的程序;
若使用vLLM框架,可调整推理参数(如batch size)提升效率。
5. 多设备管理时如何分配任务?
答:确保所有设备均已通过ADB成功连接(adb devices可显示所有设备ID),在任务配置脚本中指定设备ID列表,即可实现任务批量分发,具体可参考examples目录下的多设备任务示例(项目后续将补充更详细的多设备调度文档)。
6. 任务执行失败(如Agent找不到目标按钮)?
答:可能是应用版本或设备分辨率差异导致界面元素位置变化,建议:
确保测试应用为最新版本;
检查设备是否为常见分辨率(项目优先适配主流Android设备);
通过轨迹可视化工具查看Agent的错误操作,调整任务指令的描述精度。
七、相关链接
模型下载(Hugging Face):https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
八、总结
GELab-Zero是一款兼顾工程化实用性与开源易用性的GUI智能体工具包,通过“轻量模型+全套基础设施”的整合方案,解决了移动Agent开发中的兼容性、部署复杂度、隐私安全等核心痛点。其本地部署、一键启动、多设备支持等特性降低了GUI Agent的使用门槛,而在AndroidDaily等基准测试中的优异表现验证了其技术可靠性,可广泛应用于日常购物、交通出行、信息检索等高频场景。无论是想要快速验证创新思路的Agent开发者,还是需要将自动化能力集成到产品中的企业用户,都能从该项目中获得高效支持,无需投入大量精力搭建工程化基础,从而聚焦核心业务创新。作为开源项目,GELab-Zero还将通过社区交流持续优化,为GUI智能体的大规模落地提供更坚实的支撑。
版权及免责申明:本文由@人工智能研究所原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/gelab-zero.html

