GELab-Zero:阶跃星辰开源的全栈式本地GUI智能体工具包

原创 发布日期:
48

一、GELab-Zero是什么?

GELab-Zero是阶跃星辰基于自身研究能力打造的开源GUI智能体工具包,定位为“面向星系级的顶级GUI Agent解决方案”。它的核心使命是解决移动Agent从“可行性验证”向“大规模应用”转型过程中的工程痛点——由于移动应用生态高度碎片化,传统GUI Agent开发需处理多设备ADB连接、依赖安装、权限配置、推理服务部署等繁杂工作,导致开发者难以聚焦核心创新。

为此,GELab-Zero构建了“基础设施+模型”的双核心架构:一方面提供全套即插即用的推理工程基础设施,包揽所有工程化“重活”;另一方面配套4B规模的轻量GUI Agent模型,支持在消费级硬件上本地运行。两者结合实现了“一键启动、全本地部署、全程可控”的使用体验,既兼容所有应用(无需应用厂商适配),又能让用户完全掌控推理流水线,平衡了实用性、隐私性和便捷性。

值得一提的是,该项目的研究成果已获得学术认可——其多轮强化学习(Multi-Turn RL)相关论文已被NeurIPS 2025接收,为技术落地提供了坚实的理论支撑。

二、功能特色

GELab-Zero的功能设计围绕“降低使用门槛、提升场景适配性、保障可控性”三大核心目标,核心特色如下:

1. 全本地部署,隐私与效率兼顾

支持4B规模模型在普通消费级电脑上运行,无需依赖云端服务器。既避免了数据传输过程中的隐私泄露风险,又减少了网络延迟,确保任务执行的实时性。对于注重数据安全的个人用户或企业而言,这一特性尤为关键。

2. 一键启动,零门槛部署

提供统一的部署流水线,自动化处理Python环境依赖、LLM推理配置、Android设备连接等复杂步骤。用户无需手动调试各类参数,即使缺乏深厚的工程化经验,也能通过简单命令快速搭建完整运行环境,大幅降低GUI Agent的使用门槛。

3. 多设备任务分发与轨迹可追溯

支持同时连接多台Android设备,将任务批量分发至不同设备执行。同时自动记录每一步交互轨迹(包括点击坐标、输入文本、应用切换等),不仅便于后续观测Agent行为逻辑,还能实现任务复现,为开发者调试策略或企业排查问题提供便利。

4. 三种Agent模式,适配复杂场景

覆盖三种核心工作模式,可灵活应对不同类型的任务需求:

  • ReAct循环模式:适用于需要实时决策的交互式任务(如导航查询、信息检索);

  • 多Agent协作模式:支持多个智能体分工配合,处理多步骤、跨应用的复杂任务(如“查地铁+打车+订餐厅”的出行全流程);

  • 定时任务模式:可预设任务执行时间,实现自动化调度(如定时领取平台补贴、定时查询公交运营状态)。

5. 兼容多品牌设备与主流应用

凭借GUI交互的通用性,无需应用厂商适配即可兼容市面上绝大多数Android应用(包括外卖、打车、电商、社交、学习类APP),且支持不同品牌、不同型号的Android设备,解决了移动生态碎片化导致的兼容性问题。

6. 轨迹可视化,直观观测执行过程

提供专门的轨迹可视化工具,可通过浏览器访问可视化界面,查看任务执行的完整流程。所有点击、滑动等操作都会在截图上标记,让用户清晰了解Agent的每一步决策,便于优化任务指令或调试模型。

三、技术细节

1. 核心架构组成

GELab-Zero的工程架构采用模块化设计,主要包含以下核心模块(对应仓库目录):

  • copilot_agent_client:智能体客户端,负责与设备端交互、执行任务指令;

  • copilot_agent_server:智能体服务器,处理任务调度、模型推理、轨迹记录;

  • copilot_front_end:前端交互界面,支持任务配置与可视化操作;

  • copilot_tools/tools:工具集,包含ADB连接管理、文本处理、设备控制等基础工具;

  • examples:任务示例脚本,提供单任务运行等快速上手案例;

  • visualization:轨迹可视化模块,基于Streamlit实现交互流程展示;

  • 配置文件:model_config.yaml(模型参数配置)、requirements.txt(依赖清单)、yadb(数据存储相关)。

2. 模型技术参数

  • 模型规模:4B参数(轻量级,适配消费级硬件);

  • 支持量化:提供int8(模型大小4.4G,精度损失小)、int4(模型大小2.2G,精度损失较大)两种量化选项,用户可根据硬件配置灵活选择;

  • 推理框架兼容:支持Ollama(推荐个人用户,安装简单)和vLLM(推荐企业用户,推理更稳定)两种本地推理框架;

  • 核心能力:基于多轮强化学习(Multi-Turn RL)优化,擅长GUI界面理解、跨应用交互、复杂任务拆解。

3. 基准测试表现

项目构建了贴近日常生活的基准测试集AndroidDaily,并在多个开源基准中验证了性能,核心测试结果如下:

表1:AndroidDaily静态测试准确率对比(共3146个动作)

模型名称 准确率
GPT-4o 0.196
Gemini-2.5-pro-thinking 0.366
UI-TARS-1.5 0.470
GELab-Zero-4B-preview 0.734

静态测试主要评估Agent对单一动作(点击、输入、应用激活等)的预测准确性,GELab-Zero-4B-preview的准确率显著高于其他模型,体现了其强大的GUI交互理解能力。

表2:AndroidDaily端到端测试场景分布(共235个任务)

场景类别 任务数量 占比 典型任务
交通出行 78 33.19% 打车、导航、公交/地铁查询
购物消费 61 25.96% 电商购物、支付、订单管理
社交沟通 43 18.30% 消息发送、社交平台互动
内容消费 37 15.74% 新闻阅读、视频观看、内容收藏
本地服务 16 6.81% 外卖下单、本地服务预约

端到端测试要求Agent自主完成完整任务,GELab-Zero-4B-preview在该测试中取得75.86%的任务成功率,在真实移动场景中表现优异。此外,在ScreenSpot-V2、OSWorld-G、Android World等开源基准中,该模型也展现了领先于同类开源模型的性能。

四、应用场景

GELab-Zero聚焦日常生活中的高频需求,已验证多个典型应用场景,覆盖“衣食住行、信息消费、娱乐”六大核心维度,具体包括:

1. 推荐类任务

  • 影视推荐:如“查找近期优质科幻电影”,Agent自动打开视频APP(如小米视频),检索最新科幻片榜单并返回结果;

  • 旅游推荐:如“推荐周末亲子旅游目的地”,Agent通过地图APP(如高德地图)、旅游平台(如携程)查询适合儿童的景点,整合距离、评价等信息给出建议。

2. 实用工具类任务

  • 补贴领取:如“在企业福利平台领取餐券”,Agent登录指定平台(如飞连),导航至福利中心,完成餐券领取操作;

  • 交通查询与导航:如“查询地铁1号线是否正常运营,并导航至最近入口”,Agent打开地图APP查询运营状态,规划步行路线并提供导航指引;

  • 词汇学习:如“在百词斩完成当日词汇学习任务”,Agent自动启动百词斩APP,按流程完成单词背诵、测试等步骤。

3. 复杂购物类任务

支持多商品、多条件的精准购物,例如“在饿了么就近的盒马鲜生购买:300g红草莓、125g秘鲁 Bianca蓝莓(直径18mm)、500g时令鲜黄土豆等11种商品”。Agent会自动打开饿了么APP,定位就近门店,逐一搜索商品、核对规格,最终完成下单流程。

4. 信息检索类任务

  • 高赞回答检索:如“在知乎搜索‘如何学习理财’,查看点赞超1万的首个回答”,Agent启动浏览器或知乎APP,执行搜索、筛选高赞内容、提取核心信息等操作;

  • 条件筛选搜索:如“在淘宝查找37码、单价低于100元的白色帆布鞋,将首个符合条件的商品加入收藏”,Agent按规格、价格筛选商品,完成收藏操作。

这些场景的核心共性是“需跨界面、多步骤交互”,且贴近用户日常使用习惯,充分体现了GELab-Zero的实用价值。

GELab-Zero:阶跃星辰开源的全栈式本地GUI智能体工具包

五、使用方法

GELab-Zero的使用需完成“环境搭建→设备配置→模型部署→任务运行”四大步骤,全程提供详细指引,以下是完整操作流程:

前置条件

  • 硬件要求:消费级电脑(支持本地运行4B模型,量化后可降低配置要求);1台或多台Android设备(支持USB调试);

  • 软件要求:Python 3.12+;Windows/Mac/Linux操作系统;网络环境(用于下载模型、依赖包)。

步骤1:Python环境搭建

推荐使用Miniforge管理Python环境,兼顾跨平台兼容性与商业友好性:

Windows用户

  1. 下载Miniforge:访问https://github.com/conda-forge/miniforge,按指引手动安装,安装时勾选“添加Conda到PATH环境变量”;

  2. 激活Conda:打开PowerShell,执行以下命令:

    conda init powershell
    Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser

    终端显示“(base)”即为激活成功;

  3. 推荐安装VS Code:用于代码执行与调试,下载地址https://code.visualstudio.com/。

Mac/Linux用户

  1. 终端执行命令下载并安装Miniforge:

    curl -L -O "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"
    bash Miniforge3-$(uname)-$(uname -m).sh
  2. 创建并激活专用环境:

    conda create -n gelab-zero python=3.12 -y
    conda activate gelab-zero

步骤2:LLM推理环境搭建

支持Ollama(推荐个人用户)和vLLM(推荐企业/技术用户)两种方案,以下以Ollama为例:

2.1 安装Ollama

2.2 部署GELab-Zero-4B-preview模型

  1. 安装Hugging Face Hub工具(用于下载模型权重):

    pip install huggingface_hub
  2. 加速下载(国内用户可选):

    • Windows:$env:HF_ENDPOINT = "https://hf-mirror.com"

    • Linux/Mac:export HF_ENDPOINT="https://hf-mirror.com"

  3. 下载模型权重:

    hf download --no-force-download stepfun-ai/GELab-Zero-4B-preview --local-dir gelab-zero-4b-preview
  4. 导入Ollama:

    cd gelab-zero-4b-preview
    ollama create gelab-zero-4b-preview -f Modelfile

    (Windows用户若报错,需指定Ollama安装路径,例如:C:\Users\admin\AppData\Local\Programs\Ollama\ollama.exe create gelab-zero-4b-preview -f Modelfile

  5. 模型量化(可选):

    # int8量化(推荐)
    ollama create -q q8_0 gelab-zero-4b-preview
    # int4量化(低配置电脑可选)
    ollama create -q q4_0 gelab-zero-4b-preview
    # 恢复原始精度
    ollama create -q f16 gelab-zero-4b-preview
  6. 测试模型:

    • Windows:打开Ollama APP,选择模型发送消息测试;

    • Mac/Linux:终端执行以下命令,返回模型回复即为成功:

      curl -X POST http://localhost:11434/v1/chat/completions \
      -H "Content-Type: application/json" \
      -d '{
         "model": "gelab-zero-4b-preview",
         "messages": [{"role": "user", "content": "Hello, GELab-Zero!"}]
        }'

步骤3:Android设备执行环境配置

3.1 启用开发者模式与USB调试

  1. 手机打开“设置”,找到“关于手机”/“系统”,连续点击“版本号”10次以上,激活开发者模式;

  2. 返回设置主菜单,找到“开发者选项”,启用“USB调试”(核心必选),建议同时启用“USB调试(安全设置)”;

  3. 不同品牌手机操作略有差异,可搜索“XX手机如何启用开发者模式”获取具体教程。

3.2 安装ADB工具

ADB(Android Debug Bridge)是电脑与Android设备通信的核心工具:

  • Windows:下载https://dl.google.com/android/repository/platform-tools-latest-windows.zip,解压后将文件夹路径添加到系统环境变量(具体步骤:此电脑→属性→高级系统设置→环境变量→Path→编辑→新增解压路径);

  • Mac/Linux:通过包管理器安装:

    # Mac(需先安装Homebrew:ruby -e $(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install))
    brew cask install android-platform-tools
    # Linux(以Ubuntu为例)
    sudo apt-get install android-tools-adb

3.3 连接设备

  1. 用USB数据线连接手机与电脑;

  2. 终端执行adb devices,若显示设备ID(如“AN2CVB4C28000731 device”),说明连接成功;

  3. 首次连接需在手机上点击“允许USB调试”授权。

步骤4:GELab-Zero运行环境部署

  1. 克隆仓库:

    git clone https://github.com/stepfun-ai/gelab-zero
    cd gelab-zero
  2. 安装依赖:

    pip install -r requirements.txt
  3. 运行单任务示例:

    python examples/run_single_task.py

步骤5:轨迹可视化(可选)

  1. 启动可视化服务:

    • 局域网访问(其他设备可连接):

      streamlit run --server.address 0.0.0.0 visualization/main_page.py --server.port 33503
    • 本地访问:

      streamlit run --server.address 127.0.0.1 visualization/main_page.py --server.port 33503
  2. 浏览器访问http://localhost:33503,输入任务会话ID,即可查看完整交互轨迹(点击、滑动等操作会标记在截图上)。

六、常见问题解答(FAQ)

1. 安装Python时提示版本不兼容?

答:GELab-Zero要求Python 3.12+,若系统安装的版本过低,需通过Miniforge创建3.12+版本的独立环境(步骤1已详细说明),避免修改系统默认Python版本。

2. ADB连接失败(执行adb devices无设备)?

答:可能原因及解决方案:

  • 未启用USB调试:重新检查手机“开发者选项”中的USB调试开关;

  • USB线缆问题:更换原装或支持数据传输的线缆(部分充电线仅支持充电);

  • 未授权调试:手机连接电脑后,确保弹出授权提示并点击“允许”;

  • 环境变量未配置(Windows):重新检查ADB工具的路径是否添加到系统Path中。

3. 模型下载速度慢或失败?

答:国内用户可通过设置HF_ENDPOINT镜像加速(步骤2.2已提供命令);若仍失败,可直接访问Hugging Face仓库(https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview)手动下载模型权重,解压后放入指定目录。

4. 运行任务时模型推理卡顿?

答:可尝试以下优化:

  • 对模型进行量化(推荐int8量化,步骤2.2已说明);

  • 关闭电脑后台其他占用资源的程序;

  • 若使用vLLM框架,可调整推理参数(如batch size)提升效率。

5. 多设备管理时如何分配任务?

答:确保所有设备均已通过ADB成功连接(adb devices可显示所有设备ID),在任务配置脚本中指定设备ID列表,即可实现任务批量分发,具体可参考examples目录下的多设备任务示例(项目后续将补充更详细的多设备调度文档)。

6. 任务执行失败(如Agent找不到目标按钮)?

答:可能是应用版本或设备分辨率差异导致界面元素位置变化,建议:

  • 确保测试应用为最新版本;

  • 检查设备是否为常见分辨率(项目优先适配主流Android设备);

  • 通过轨迹可视化工具查看Agent的错误操作,调整任务指令的描述精度。

七、相关链接

八、总结

GELab-Zero是一款兼顾工程化实用性与开源易用性的GUI智能体工具包,通过“轻量模型+全套基础设施”的整合方案,解决了移动Agent开发中的兼容性、部署复杂度、隐私安全等核心痛点。其本地部署、一键启动、多设备支持等特性降低了GUI Agent的使用门槛,而在AndroidDaily等基准测试中的优异表现验证了其技术可靠性,可广泛应用于日常购物、交通出行、信息检索等高频场景。无论是想要快速验证创新思路的Agent开发者,还是需要将自动化能力集成到产品中的企业用户,都能从该项目中获得高效支持,无需投入大量精力搭建工程化基础,从而聚焦核心业务创新。作为开源项目,GELab-Zero还将通过社区交流持续优化,为GUI智能体的大规模落地提供更坚实的支撑。

打赏
THE END
作者头像
人工智能研究所
发现AI神器,探索AI技术!