PhoneBuddy:腾讯混元开源的手机智能代理混合强化学习训练框架
一、PhoneBuddy 是什么
PhoneBuddy 是腾讯混元团队联合港中深、人大、武大等高校联合推出的开源手机智能代理(Phone-use Agent)混合强化学习训练框架,项目核心目标解决移动端GUI智能体训练的行业核心矛盾:纯真实手机强化学习训练效果贴合真机,但环境有状态、无法批量重置、训练成本高且存在支付、消息发送等操作风险;纯模拟App仿真环境可无限批量训练、零风险,但仿真界面与真实手机存在行为偏差,模型真机落地效果大幅衰减。
PhoneBuddy 独创真机+模拟混合RL训练范式,搭配自研配套工具链(PhoneWorld、PhoneHarness、PhonePrivacy、PhoneSafety),提供可直接部署在安卓设备执行全流程手机任务的开源轻量化模型,是一套完整覆盖「环境搭建-模型训练-真机评测-安全隐私校验」全链路的移动端智能体研发解决方案。
配套论文《PhoneBuddy: Training Open Models for Agentic Phone Use》发布于arXiv(编号2606.23049),同时在Hugging Face开源3款专用手机操作大模型,面向AI研究者、自动化开发者、端侧AI工程师开放完整训练与推理能力。

二、功能特色
1. 混合强化学习核心训练能力
独创Real+Mock双环境混合强化学习流水线,同步采集真实手机操作轨迹与PhoneWorld仿真环境数据,互相补充训练样本,兼顾真机适配性与规模化训练效率。
2. 完整配套5件套工具生态
PhoneBuddy并非单一训练代码,配套自研全套移动端Agent研发工具:
PhoneWorld:安卓App仿真模拟环境,可一键重置界面、批量生成训练样本;
PhoneHarness:统一CLI/GUI多动作执行基准,标准化手机任务评测流程;
PhonePrivacy:手机智能代理隐私行为校验基准,检测模型越权读取隐私;
PhoneSafety:区分模型能力不足与主动危险操作的安全评估工具;
PhoneBuddy(主项目):混合RL训练框架、模型权重、推理调度核心。
3. 开源多尺寸专用手机操作模型
官方释放3款经过手机任务专项微调的模型,统一采用Qwen标准XML工具调用格式,无需额外适配即可解析屏幕、输出点击/滑动/输入动作:
PhoneBuddy-4B(主力推荐):真机+模拟混合RL完整训练,综合任务成功率最高;
PhoneBuddy-4B-RealApp:仅真实手机数据训练消融对照模型;
PhoneBuddy-0.8B轻量化版:低显存设备、手机端本地推理专用。
4. 标准化手机任务评测体系
内置150项真实手机测试任务,覆盖单App操作、跨App联动、微信小程序、AndroidWorld通用基准四大场景,自动统计任务完成成功率,量化对比不同模型、训练方案性能差异。
5. 低门槛推理部署方案
支持PyTorch原生加载、8bit量化轻量化推理,兼容ADB安卓设备远程控制,提供命令行推理脚本、Python API两种调用方式,快速实现自然语言操控安卓手机。
6. 安全与隐私双重校验机制
配套PhonePrivacy、PhoneSafety工具,训练与推理阶段自动拦截支付、通讯录读取、批量群发等高风险操作,记录模型隐私访问行为,规避自动化操作安全隐患。
三、技术细节
1. 整体技术架构
整体分为四层:仿真环境层、真机采集层、混合训练层、推理执行层。
环境采集层
真机端:通过ADB捕获安卓屏幕截图、UI层级XML、用户操作轨迹(点击、滑动、输入);
仿真端:PhoneWorld复刻主流App界面,无状态可无限重置,批量生成海量训练样本。
混合数据融合层
将真机真实轨迹、仿真标准化轨迹统一转换为「界面XML+任务指令+动作序列」标准训练样本,消除两类环境数据格式差异。强化学习训练层
采用监督微调(SFT)+ 双环境奖励函数RL优化:仿真环境提供快速迭代奖励,真机环境提供真实场景校正奖励,双向更新模型权重。推理执行层
模型接收自然语言任务+当前手机UI XML,输出标准化动作指令(Tap点击/Swipe滑动/Type输入/Launch启动应用/Back返回等),通过PhoneHarness调度ADB驱动安卓设备执行操作。
2. 模型技术规范
基座:Qwen系列开源大模型,针对移动端GUI任务专项微调;
输出格式:标准化XML工具调用,动作包含屏幕元素坐标、操作类型、输入文本;
量化支持:原生支持8bit/4bit量化,0.8B版本可在消费级显卡、中端安卓手机本地运行;
输入上下文:融合历史操作轨迹、当前界面元素、用户完整任务指令,长序列任务规划无截断。
3. 训练性能量化数据
基于150项手机标准任务,官方公开模型性能对照:
| 模型版本 | 单App任务成功率 | 微信小程序成功率 | AndroidWorld基准成功率 | 综合平均成功率 |
|---|---|---|---|---|
| 4B-SFT(仅监督微调) | 34.0% | 54.0% | 60.3% | 42.6% |
| 4B-Real(仅真机RL) | 54.0% | 48.0% | 77.2% | 49.8% |
| PhoneBuddy-4B(混合RL) | 62.0% | 56.0% | 83.2% | 54.8% |
技术核心结论:混合真实+模拟环境训练相比单一训练方案,全场景综合成功率提升5-12个百分点,单应用、通用安卓基准场景提升效果最显著;跨多App联动任务仍是当前模型性能短板。
4. 开发语言与仓库结构
核心开发语言:Python(40.8%),配套Kotlin(安卓仿真)、HTML/JS(可视化评测面板);
仓库目录划分:
assets:论文原文、性能图表、任务测试集说明;
docs:部署文档、模型微调指南、评测标准;
core:混合RL训练核心代码、数据处理管道;
inference:推理脚本、ADB设备调度API;
benchmark:150项手机测试任务自动化评测脚本。

四、应用场景
移动端AI自动化研发(科研场景)
高校、AI实验室用于手机GUI智能体算法研究,快速复现混合强化学习训练方案,对比不同模型、训练策略的任务完成效果。安卓App自动化测试(企业研发)
替代人工完成App功能遍历、流程回归测试,自然语言下达测试指令,自动操作页面、记录操作日志,降低UI自动化脚本编写成本。个人手机智能助手(端侧落地)
本地部署轻量化0.8B模型,通过自然语言完成查外卖、订车票、整理微信文件、搜索小程序等重复性手机操作。无障碍辅助工具开发
面向视障、操作困难人群,语音指令驱动模型自动完成复杂手机操作,降低智能设备使用门槛。隐私与安全自动化检测
搭配PhonePrivacy、PhoneSafety工具,自动化检测App是否存在隐私越权、高危操作风险,用于应用合规审核。批量移动端数据采集
PhoneWorld仿真环境批量运行任务,采集标准化手机UI交互数据集,用于其他多模态GUI模型训练。
五、使用方法
前置环境要求
硬件:GPU显存≥6G(4B模型推荐12G显存,0.8B最低4G显存);
软件:Python 3.9+、PyTorch 2.0+、ADB工具(真机控制必备)、Git;
设备:安卓7.0及以上真机,或PhoneWorld仿真环境。
步骤1:克隆官方仓库
git clone https://github.com/PhoneBuddyAI/phonebuddy.git cd phonebuddy pip install -r requirements.txt
步骤2:下载开源模型权重
前往Hugging Face官方仓库,选择对应模型(推荐PhoneBuddy-4B),下载至本地./models目录,支持Transformers一键拉取:
from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "PhoneBuddyAI/PhoneBuddy-4B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
步骤3:环境二选一(真机/仿真)
真实安卓设备模式
开启手机USB调试,电脑连接设备,执行adb devices校验设备识别成功;PhoneWorld仿真模式
运行仓库simulator目录启动仿真环境,无需实体手机,支持批量并行。
步骤4:两种推理调用方式
命令行快速推理
python inference/cli_run.py --task "打开美团搜索附近川菜馆" --device adb
Python API集成调用
导入内置Agent调度类,嵌入自有自动化系统,获取模型输出动作序列,自动执行手机操作。
步骤5:模型训练(进阶)
配置config/train_config.yaml,设置真机/仿真数据采样比例,执行混合强化学习训练脚本,支持自定义数据集微调模型。

六、竞品对比
选取业内两款主流开源手机Agent框架:阿里Mobile-Agent、清华Open-AutoGLM,与PhoneBuddy进行多维度对比:
| 对比维度 | PhoneBuddy | Mobile-Agent-v2(阿里) | Open-AutoGLM |
|---|---|---|---|
| 核心训练方案 | 真机+仿真混合强化学习 | 纯视觉多智能体监督微调,无仿真训练环境 | 纯真机轨迹监督微调,无RL优化 |
| 配套工具生态 | 全套5件套(仿真/评测/隐私/安全) | 仅推理执行框架,无标准化评测基准 | 仅ADB推理调度,无训练配套工具 |
| 开源模型尺寸 | 0.8B/4B双版本 | 7B单一大模型,显存门槛高 | 无自研专用手机模型,依赖第三方LLM |
| 训练规模化能力 | PhoneWorld支持无限批量仿真训练 | 仅依赖真实手机采集,无法批量 | 仅单设备真机采集,规模化成本极高 |
| 安全隐私校验 | 原生配套隐私、安全评估工具 | 无内置风险检测模块 | 仅基础敏感操作弹窗确认 |
| 任务评测标准 | 150项标准化手机测试集 | 自研小规模测试集,无公开统一基准 | 无官方标准化评测任务库 |
| 核心优势 | 训练方案完整、兼顾效果与成本、科研友好 | 纯视觉方案,无需解析UI XML | 轻量化部署、快速上手推理 |
| 短板 | 跨App多联动任务性能一般 | 大模型显存占用高,本地部署困难 | 无强化学习优化,复杂长任务成功率低 |
七、常见问题解答(FAQ)
Q1:PhoneBuddy 训练数据集是否对外开源?
A:官方仅开源模型权重、训练框架与测试任务集,用于RL训练的真实手机操作原始数据集暂未对外开放,仅提供标准化仿真生成样本供开发者实验。
Q2:没有安卓实体手机,可以运行PhoneBuddy吗?
A:可以。项目配套PhoneWorld仿真环境,无需真机即可完成模型推理、小规模训练、自动化评测;仅需要采集真实手机轨迹时,才需要安卓设备搭配ADB调试。
Q3:PhoneBuddy模型能否在手机本地离线运行?
A:0.8B轻量化版本支持安卓端离线量化推理,可通过移动端推理框架部署;4B版本受限于手机硬件显存,仅建议PC端GPU运行,不推荐手机本地加载。
Q4:混合RL训练相比只使用真机训练,优势是什么?
A:真实手机每次操作环境状态不可重置,采集样本速度慢、存在支付、消息发送等不可逆风险;PhoneWorld仿真环境可一键重置界面,7×24小时批量生成训练样本,大幅降低训练时间与操作风险,同时真机数据校正仿真偏差,保证模型落地真机有效。
Q5:PhoneBuddy可以操作iOS苹果手机吗?
A:当前框架仅适配Android系统,依赖ADB协议驱动设备;iOS无官方开放的自动化调试接口,暂不支持苹果设备操作,官方暂无iOS适配计划。
Q6:训练过程中模型执行高危操作(支付、发送短信)会有风险吗?
A:分为两层防护:仿真环境内所有操作均为虚拟,无真实业务风险;真机推理/训练阶段配套PhoneSafety工具,识别支付、通讯录读写等高风险动作时自动暂停执行,弹出人工确认流程,规避财产与隐私风险。
Q7:能否基于PhoneBuddy二次开发自有手机自动化产品?
A:项目采用开源可商用协议,模型权重、训练代码均可自由二次修改、集成至自有系统;仅需遵循开源协议标注原项目来源,无商用授权限制。
八、官方链接
Hugging Face开源模型库:https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
项目官方主页:https://phonebuddyai.github.io/
arXiv论文地址:https://arxiv.org/abs/2606.23049
九、总结
PhoneBuddy是当前移动端GUI智能体领域少有的、完整覆盖仿真环境、混合强化学习训练、标准化评测、隐私安全校验全流程的开源研发框架,通过独创真机+模拟双环境训练方案解决了传统手机AI代理训练成本高、落地效果差两大核心痛点,配套轻量化专用手机操作模型降低了端侧自动化与AI科研的技术门槛,完整工具链覆盖学术研究、企业App测试、无障碍辅助、合规安全检测等多元落地场景,为国内移动端智能体开发者提供了一套无需从零搭建、可直接复现与二次开发的标准化技术栈。
版权及免责申明:本文由@AI工具集原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/phonebuddy.html

