PhoneBuddy:腾讯混元开源的手机智能代理混合强化学习训练框架

原创 发布日期:
66

一、PhoneBuddy 是什么

PhoneBuddy 是腾讯混元团队联合港中深、人大、武大等高校联合推出的开源手机智能代理(Phone-use Agent)混合强化学习训练框架,项目核心目标解决移动端GUI智能体训练的行业核心矛盾:纯真实手机强化学习训练效果贴合真机,但环境有状态、无法批量重置、训练成本高且存在支付、消息发送等操作风险;纯模拟App仿真环境可无限批量训练、零风险,但仿真界面与真实手机存在行为偏差,模型真机落地效果大幅衰减。

PhoneBuddy 独创真机+模拟混合RL训练范式,搭配自研配套工具链(PhoneWorld、PhoneHarness、PhonePrivacy、PhoneSafety),提供可直接部署在安卓设备执行全流程手机任务的开源轻量化模型,是一套完整覆盖「环境搭建-模型训练-真机评测-安全隐私校验」全链路的移动端智能体研发解决方案。

配套论文《PhoneBuddy: Training Open Models for Agentic Phone Use》发布于arXiv(编号2606.23049),同时在Hugging Face开源3款专用手机操作大模型,面向AI研究者、自动化开发者、端侧AI工程师开放完整训练与推理能力。

PhoneBuddy:腾讯混元开源的手机智能代理混合强化学习训练框架

二、功能特色

1. 混合强化学习核心训练能力

独创Real+Mock双环境混合强化学习流水线,同步采集真实手机操作轨迹与PhoneWorld仿真环境数据,互相补充训练样本,兼顾真机适配性与规模化训练效率。

2. 完整配套5件套工具生态

PhoneBuddy并非单一训练代码,配套自研全套移动端Agent研发工具:

  • PhoneWorld:安卓App仿真模拟环境,可一键重置界面、批量生成训练样本;

  • PhoneHarness:统一CLI/GUI多动作执行基准,标准化手机任务评测流程;

  • PhonePrivacy:手机智能代理隐私行为校验基准,检测模型越权读取隐私;

  • PhoneSafety:区分模型能力不足与主动危险操作的安全评估工具;

  • PhoneBuddy(主项目):混合RL训练框架、模型权重、推理调度核心。

3. 开源多尺寸专用手机操作模型

官方释放3款经过手机任务专项微调的模型,统一采用Qwen标准XML工具调用格式,无需额外适配即可解析屏幕、输出点击/滑动/输入动作:

  • PhoneBuddy-4B(主力推荐):真机+模拟混合RL完整训练,综合任务成功率最高;

  • PhoneBuddy-4B-RealApp:仅真实手机数据训练消融对照模型;

  • PhoneBuddy-0.8B轻量化版:低显存设备、手机端本地推理专用。

4. 标准化手机任务评测体系

内置150项真实手机测试任务,覆盖单App操作、跨App联动、微信小程序、AndroidWorld通用基准四大场景,自动统计任务完成成功率,量化对比不同模型、训练方案性能差异。

5. 低门槛推理部署方案

支持PyTorch原生加载、8bit量化轻量化推理,兼容ADB安卓设备远程控制,提供命令行推理脚本、Python API两种调用方式,快速实现自然语言操控安卓手机。

6. 安全与隐私双重校验机制

配套PhonePrivacy、PhoneSafety工具,训练与推理阶段自动拦截支付、通讯录读取、批量群发等高风险操作,记录模型隐私访问行为,规避自动化操作安全隐患。

三、技术细节

1. 整体技术架构

整体分为四层:仿真环境层、真机采集层、混合训练层、推理执行层。

  1. 环境采集层

    • 真机端:通过ADB捕获安卓屏幕截图、UI层级XML、用户操作轨迹(点击、滑动、输入);

    • 仿真端:PhoneWorld复刻主流App界面,无状态可无限重置,批量生成海量训练样本。

  2. 混合数据融合层
    将真机真实轨迹、仿真标准化轨迹统一转换为「界面XML+任务指令+动作序列」标准训练样本,消除两类环境数据格式差异。

  3. 强化学习训练层
    采用监督微调(SFT)+ 双环境奖励函数RL优化:仿真环境提供快速迭代奖励,真机环境提供真实场景校正奖励,双向更新模型权重。

  4. 推理执行层
    模型接收自然语言任务+当前手机UI XML,输出标准化动作指令(Tap点击/Swipe滑动/Type输入/Launch启动应用/Back返回等),通过PhoneHarness调度ADB驱动安卓设备执行操作。

2. 模型技术规范

  • 基座:Qwen系列开源大模型,针对移动端GUI任务专项微调;

  • 输出格式:标准化XML工具调用,动作包含屏幕元素坐标、操作类型、输入文本;

  • 量化支持:原生支持8bit/4bit量化,0.8B版本可在消费级显卡、中端安卓手机本地运行;

  • 输入上下文:融合历史操作轨迹、当前界面元素、用户完整任务指令,长序列任务规划无截断。

3. 训练性能量化数据

基于150项手机标准任务,官方公开模型性能对照:

模型版本 单App任务成功率 微信小程序成功率 AndroidWorld基准成功率 综合平均成功率
4B-SFT(仅监督微调) 34.0% 54.0% 60.3% 42.6%
4B-Real(仅真机RL) 54.0% 48.0% 77.2% 49.8%
PhoneBuddy-4B(混合RL) 62.0% 56.0% 83.2% 54.8%

技术核心结论:混合真实+模拟环境训练相比单一训练方案,全场景综合成功率提升5-12个百分点,单应用、通用安卓基准场景提升效果最显著;跨多App联动任务仍是当前模型性能短板。

4. 开发语言与仓库结构

  • 核心开发语言:Python(40.8%),配套Kotlin(安卓仿真)、HTML/JS(可视化评测面板);

  • 仓库目录划分:

    • assets:论文原文、性能图表、任务测试集说明;

    • docs:部署文档、模型微调指南、评测标准;

    • core:混合RL训练核心代码、数据处理管道;

    • inference:推理脚本、ADB设备调度API;

    • benchmark:150项手机测试任务自动化评测脚本。

benchmark

四、应用场景

  1. 移动端AI自动化研发(科研场景)
    高校、AI实验室用于手机GUI智能体算法研究,快速复现混合强化学习训练方案,对比不同模型、训练策略的任务完成效果。

  2. 安卓App自动化测试(企业研发)
    替代人工完成App功能遍历、流程回归测试,自然语言下达测试指令,自动操作页面、记录操作日志,降低UI自动化脚本编写成本。

  3. 个人手机智能助手(端侧落地)
    本地部署轻量化0.8B模型,通过自然语言完成查外卖、订车票、整理微信文件、搜索小程序等重复性手机操作。

  4. 无障碍辅助工具开发
    面向视障、操作困难人群,语音指令驱动模型自动完成复杂手机操作,降低智能设备使用门槛。

  5. 隐私与安全自动化检测
    搭配PhonePrivacy、PhoneSafety工具,自动化检测App是否存在隐私越权、高危操作风险,用于应用合规审核。

  6. 批量移动端数据采集
    PhoneWorld仿真环境批量运行任务,采集标准化手机UI交互数据集,用于其他多模态GUI模型训练。

五、使用方法

前置环境要求

  1. 硬件:GPU显存≥6G(4B模型推荐12G显存,0.8B最低4G显存);

  2. 软件:Python 3.9+、PyTorch 2.0+、ADB工具(真机控制必备)、Git;

  3. 设备:安卓7.0及以上真机,或PhoneWorld仿真环境。

步骤1:克隆官方仓库

git clone https://github.com/PhoneBuddyAI/phonebuddy.git
cd phonebuddy
pip install -r requirements.txt

步骤2:下载开源模型权重

前往Hugging Face官方仓库,选择对应模型(推荐PhoneBuddy-4B),下载至本地./models目录,支持Transformers一键拉取:

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "PhoneBuddyAI/PhoneBuddy-4B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

步骤3:环境二选一(真机/仿真)

  1. 真实安卓设备模式
    开启手机USB调试,电脑连接设备,执行adb devices校验设备识别成功;

  2. PhoneWorld仿真模式
    运行仓库simulator目录启动仿真环境,无需实体手机,支持批量并行。

步骤4:两种推理调用方式

  1. 命令行快速推理

python inference/cli_run.py --task "打开美团搜索附近川菜馆" --device adb
  1. Python API集成调用
    导入内置Agent调度类,嵌入自有自动化系统,获取模型输出动作序列,自动执行手机操作。

步骤5:模型训练(进阶)

配置config/train_config.yaml,设置真机/仿真数据采样比例,执行混合强化学习训练脚本,支持自定义数据集微调模型。

rl_delta

六、竞品对比

选取业内两款主流开源手机Agent框架:阿里Mobile-Agent、清华Open-AutoGLM,与PhoneBuddy进行多维度对比:

对比维度 PhoneBuddy Mobile-Agent-v2(阿里) Open-AutoGLM
核心训练方案 真机+仿真混合强化学习 纯视觉多智能体监督微调,无仿真训练环境 纯真机轨迹监督微调,无RL优化
配套工具生态 全套5件套(仿真/评测/隐私/安全) 仅推理执行框架,无标准化评测基准 仅ADB推理调度,无训练配套工具
开源模型尺寸 0.8B/4B双版本 7B单一大模型,显存门槛高 无自研专用手机模型,依赖第三方LLM
训练规模化能力 PhoneWorld支持无限批量仿真训练 仅依赖真实手机采集,无法批量 仅单设备真机采集,规模化成本极高
安全隐私校验 原生配套隐私、安全评估工具 无内置风险检测模块 仅基础敏感操作弹窗确认
任务评测标准 150项标准化手机测试集 自研小规模测试集,无公开统一基准 无官方标准化评测任务库
核心优势 训练方案完整、兼顾效果与成本、科研友好 纯视觉方案,无需解析UI XML 轻量化部署、快速上手推理
短板 跨App多联动任务性能一般 大模型显存占用高,本地部署困难 无强化学习优化,复杂长任务成功率低

七、常见问题解答(FAQ)

Q1:PhoneBuddy 训练数据集是否对外开源?

A:官方仅开源模型权重、训练框架与测试任务集,用于RL训练的真实手机操作原始数据集暂未对外开放,仅提供标准化仿真生成样本供开发者实验。

Q2:没有安卓实体手机,可以运行PhoneBuddy吗?

A:可以。项目配套PhoneWorld仿真环境,无需真机即可完成模型推理、小规模训练、自动化评测;仅需要采集真实手机轨迹时,才需要安卓设备搭配ADB调试。

Q3:PhoneBuddy模型能否在手机本地离线运行?

A:0.8B轻量化版本支持安卓端离线量化推理,可通过移动端推理框架部署;4B版本受限于手机硬件显存,仅建议PC端GPU运行,不推荐手机本地加载。

Q4:混合RL训练相比只使用真机训练,优势是什么?

A:真实手机每次操作环境状态不可重置,采集样本速度慢、存在支付、消息发送等不可逆风险;PhoneWorld仿真环境可一键重置界面,7×24小时批量生成训练样本,大幅降低训练时间与操作风险,同时真机数据校正仿真偏差,保证模型落地真机有效。

Q5:PhoneBuddy可以操作iOS苹果手机吗?

A:当前框架仅适配Android系统,依赖ADB协议驱动设备;iOS无官方开放的自动化调试接口,暂不支持苹果设备操作,官方暂无iOS适配计划。

Q6:训练过程中模型执行高危操作(支付、发送短信)会有风险吗?

A:分为两层防护:仿真环境内所有操作均为虚拟,无真实业务风险;真机推理/训练阶段配套PhoneSafety工具,识别支付、通讯录读写等高风险动作时自动暂停执行,弹出人工确认流程,规避财产与隐私风险。

Q7:能否基于PhoneBuddy二次开发自有手机自动化产品?

A:项目采用开源可商用协议,模型权重、训练代码均可自由二次修改、集成至自有系统;仅需遵循开源协议标注原项目来源,无商用授权限制。

八、官方链接

  1. GitHub主仓库:https://github.com/PhoneBuddyAI/phonebuddy

  2. Hugging Face开源模型库:https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B

  3. 项目官方主页:https://phonebuddyai.github.io/

  4. arXiv论文地址:https://arxiv.org/abs/2606.23049

九、总结

PhoneBuddy是当前移动端GUI智能体领域少有的、完整覆盖仿真环境、混合强化学习训练、标准化评测、隐私安全校验全流程的开源研发框架,通过独创真机+模拟双环境训练方案解决了传统手机AI代理训练成本高、落地效果差两大核心痛点,配套轻量化专用手机操作模型降低了端侧自动化与AI科研的技术门槛,完整工具链覆盖学术研究、企业App测试、无障碍辅助、合规安全检测等多元落地场景,为国内移动端智能体开发者提供了一套无需从零搭建、可直接复现与二次开发的标准化技术栈。

打赏
THE END
作者头像
AI工具集
工具不孤岛,AI集大成——这里有你要的一切智能解法