PhoneBuddy：腾讯混元开源的手机智能代理混合强化学习训练框架

原创发布日期：2026-06-30

一、PhoneBuddy 是什么

PhoneBuddy 是腾讯混元团队联合港中深、人大、武大等高校联合推出的开源手机智能代理（Phone-use Agent）混合强化学习训练框架，项目核心目标解决移动端GUI智能体训练的行业核心矛盾：纯真实手机强化学习训练效果贴合真机，但环境有状态、无法批量重置、训练成本高且存在支付、消息发送等操作风险；纯模拟App仿真环境可无限批量训练、零风险，但仿真界面与真实手机存在行为偏差，模型真机落地效果大幅衰减。

PhoneBuddy 独创真机+模拟混合RL训练范式，搭配自研配套工具链（PhoneWorld、PhoneHarness、PhonePrivacy、PhoneSafety），提供可直接部署在安卓设备执行全流程手机任务的开源轻量化模型，是一套完整覆盖「环境搭建-模型训练-真机评测-安全隐私校验」全链路的移动端智能体研发解决方案。

配套论文《PhoneBuddy: Training Open Models for Agentic Phone Use》发布于arXiv（编号2606.23049），同时在Hugging Face开源3款专用手机操作大模型，面向AI研究者、自动化开发者、端侧AI工程师开放完整训练与推理能力。

PhoneBuddy：腾讯混元开源的手机智能代理混合强化学习训练框架

二、功能特色

1. 混合强化学习核心训练能力

独创Real+Mock双环境混合强化学习流水线，同步采集真实手机操作轨迹与PhoneWorld仿真环境数据，互相补充训练样本，兼顾真机适配性与规模化训练效率。

2. 完整配套5件套工具生态

PhoneBuddy并非单一训练代码，配套自研全套移动端Agent研发工具：

PhoneWorld：安卓App仿真模拟环境，可一键重置界面、批量生成训练样本；
PhoneHarness：统一CLI/GUI多动作执行基准，标准化手机任务评测流程；
PhonePrivacy：手机智能代理隐私行为校验基准，检测模型越权读取隐私；
PhoneSafety：区分模型能力不足与主动危险操作的安全评估工具；
PhoneBuddy（主项目）：混合RL训练框架、模型权重、推理调度核心。

3. 开源多尺寸专用手机操作模型

官方释放3款经过手机任务专项微调的模型，统一采用Qwen标准XML工具调用格式，无需额外适配即可解析屏幕、输出点击/滑动/输入动作：

PhoneBuddy-4B（主力推荐）：真机+模拟混合RL完整训练，综合任务成功率最高；
PhoneBuddy-4B-RealApp：仅真实手机数据训练消融对照模型；
PhoneBuddy-0.8B轻量化版：低显存设备、手机端本地推理专用。

4. 标准化手机任务评测体系

内置150项真实手机测试任务，覆盖单App操作、跨App联动、微信小程序、AndroidWorld通用基准四大场景，自动统计任务完成成功率，量化对比不同模型、训练方案性能差异。

5. 低门槛推理部署方案

支持PyTorch原生加载、8bit量化轻量化推理，兼容ADB安卓设备远程控制，提供命令行推理脚本、Python API两种调用方式，快速实现自然语言操控安卓手机。

6. 安全与隐私双重校验机制

配套PhonePrivacy、PhoneSafety工具，训练与推理阶段自动拦截支付、通讯录读取、批量群发等高风险操作，记录模型隐私访问行为，规避自动化操作安全隐患。

三、技术细节

1. 整体技术架构

整体分为四层：仿真环境层、真机采集层、混合训练层、推理执行层。

环境采集层

真机端：通过ADB捕获安卓屏幕截图、UI层级XML、用户操作轨迹（点击、滑动、输入）；
仿真端：PhoneWorld复刻主流App界面，无状态可无限重置，批量生成海量训练样本。

混合数据融合层
将真机真实轨迹、仿真标准化轨迹统一转换为「界面XML+任务指令+动作序列」标准训练样本，消除两类环境数据格式差异。
强化学习训练层
采用监督微调（SFT）+ 双环境奖励函数RL优化：仿真环境提供快速迭代奖励，真机环境提供真实场景校正奖励，双向更新模型权重。
推理执行层
模型接收自然语言任务+当前手机UI XML，输出标准化动作指令（Tap点击/Swipe滑动/Type输入/Launch启动应用/Back返回等），通过PhoneHarness调度ADB驱动安卓设备执行操作。

2. 模型技术规范

基座：Qwen系列开源大模型，针对移动端GUI任务专项微调；
输出格式：标准化XML工具调用，动作包含屏幕元素坐标、操作类型、输入文本；
量化支持：原生支持8bit/4bit量化，0.8B版本可在消费级显卡、中端安卓手机本地运行；
输入上下文：融合历史操作轨迹、当前界面元素、用户完整任务指令，长序列任务规划无截断。

3. 训练性能量化数据

基于150项手机标准任务，官方公开模型性能对照：

模型版本	单App任务成功率	微信小程序成功率	AndroidWorld基准成功率	综合平均成功率
4B-SFT（仅监督微调）	34.0%	54.0%	60.3%	42.6%
4B-Real（仅真机RL）	54.0%	48.0%	77.2%	49.8%
PhoneBuddy-4B（混合RL）	62.0%	56.0%	83.2%	54.8%

技术核心结论：混合真实+模拟环境训练相比单一训练方案，全场景综合成功率提升5-12个百分点，单应用、通用安卓基准场景提升效果最显著；跨多App联动任务仍是当前模型性能短板。

4. 开发语言与仓库结构

核心开发语言：Python（40.8%），配套Kotlin（安卓仿真）、HTML/JS（可视化评测面板）；
仓库目录划分：

assets：论文原文、性能图表、任务测试集说明；
docs：部署文档、模型微调指南、评测标准；
core：混合RL训练核心代码、数据处理管道；
inference：推理脚本、ADB设备调度API；
benchmark：150项手机测试任务自动化评测脚本。

benchmark

四、应用场景

移动端AI自动化研发（科研场景）
高校、AI实验室用于手机GUI智能体算法研究，快速复现混合强化学习训练方案，对比不同模型、训练策略的任务完成效果。
安卓App自动化测试（企业研发）
替代人工完成App功能遍历、流程回归测试，自然语言下达测试指令，自动操作页面、记录操作日志，降低UI自动化脚本编写成本。
个人手机智能助手（端侧落地）
本地部署轻量化0.8B模型，通过自然语言完成查外卖、订车票、整理微信文件、搜索小程序等重复性手机操作。
无障碍辅助工具开发
面向视障、操作困难人群，语音指令驱动模型自动完成复杂手机操作，降低智能设备使用门槛。
隐私与安全自动化检测
搭配PhonePrivacy、PhoneSafety工具，自动化检测App是否存在隐私越权、高危操作风险，用于应用合规审核。
批量移动端数据采集
PhoneWorld仿真环境批量运行任务，采集标准化手机UI交互数据集，用于其他多模态GUI模型训练。

五、使用方法

前置环境要求

硬件：GPU显存≥6G（4B模型推荐12G显存，0.8B最低4G显存）；
软件：Python 3.9+、PyTorch 2.0+、ADB工具（真机控制必备）、Git；
设备：安卓7.0及以上真机，或PhoneWorld仿真环境。

步骤1：克隆官方仓库

git clone https://github.com/PhoneBuddyAI/phonebuddy.git
cd phonebuddy
pip install -r requirements.txt

步骤2：下载开源模型权重

前往Hugging Face官方仓库，选择对应模型（推荐PhoneBuddy-4B），下载至本地./models目录，支持Transformers一键拉取：

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "PhoneBuddyAI/PhoneBuddy-4B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

步骤3：环境二选一（真机/仿真）

真实安卓设备模式
开启手机USB调试，电脑连接设备，执行adb devices校验设备识别成功；
PhoneWorld仿真模式
运行仓库simulator目录启动仿真环境，无需实体手机，支持批量并行。

步骤4：两种推理调用方式

命令行快速推理

python inference/cli_run.py --task "打开美团搜索附近川菜馆" --device adb

Python API集成调用
导入内置Agent调度类，嵌入自有自动化系统，获取模型输出动作序列，自动执行手机操作。

步骤5：模型训练（进阶）

配置config/train_config.yaml，设置真机/仿真数据采样比例，执行混合强化学习训练脚本，支持自定义数据集微调模型。

rl_delta

六、竞品对比

选取业内两款主流开源手机Agent框架：阿里Mobile-Agent、清华Open-AutoGLM，与PhoneBuddy进行多维度对比：

对比维度	PhoneBuddy	Mobile-Agent-v2（阿里）	Open-AutoGLM
核心训练方案	真机+仿真混合强化学习	纯视觉多智能体监督微调，无仿真训练环境	纯真机轨迹监督微调，无RL优化
配套工具生态	全套5件套（仿真/评测/隐私/安全）	仅推理执行框架，无标准化评测基准	仅ADB推理调度，无训练配套工具
开源模型尺寸	0.8B/4B双版本	7B单一大模型，显存门槛高	无自研专用手机模型，依赖第三方LLM
训练规模化能力	PhoneWorld支持无限批量仿真训练	仅依赖真实手机采集，无法批量	仅单设备真机采集，规模化成本极高
安全隐私校验	原生配套隐私、安全评估工具	无内置风险检测模块	仅基础敏感操作弹窗确认
任务评测标准	150项标准化手机测试集	自研小规模测试集，无公开统一基准	无官方标准化评测任务库
核心优势	训练方案完整、兼顾效果与成本、科研友好	纯视觉方案，无需解析UI XML	轻量化部署、快速上手推理
短板	跨App多联动任务性能一般	大模型显存占用高，本地部署困难	无强化学习优化，复杂长任务成功率低

七、常见问题解答（FAQ）

Q1：PhoneBuddy 训练数据集是否对外开源？

A：官方仅开源模型权重、训练框架与测试任务集，用于RL训练的真实手机操作原始数据集暂未对外开放，仅提供标准化仿真生成样本供开发者实验。

Q2：没有安卓实体手机，可以运行PhoneBuddy吗？

A：可以。项目配套PhoneWorld仿真环境，无需真机即可完成模型推理、小规模训练、自动化评测；仅需要采集真实手机轨迹时，才需要安卓设备搭配ADB调试。

Q3：PhoneBuddy模型能否在手机本地离线运行？

A：0.8B轻量化版本支持安卓端离线量化推理，可通过移动端推理框架部署；4B版本受限于手机硬件显存，仅建议PC端GPU运行，不推荐手机本地加载。

Q4：混合RL训练相比只使用真机训练，优势是什么？

A：真实手机每次操作环境状态不可重置，采集样本速度慢、存在支付、消息发送等不可逆风险；PhoneWorld仿真环境可一键重置界面，7×24小时批量生成训练样本，大幅降低训练时间与操作风险，同时真机数据校正仿真偏差，保证模型落地真机有效。

Q5：PhoneBuddy可以操作iOS苹果手机吗？

A：当前框架仅适配Android系统，依赖ADB协议驱动设备；iOS无官方开放的自动化调试接口，暂不支持苹果设备操作，官方暂无iOS适配计划。

Q6：训练过程中模型执行高危操作（支付、发送短信）会有风险吗？

A：分为两层防护：仿真环境内所有操作均为虚拟，无真实业务风险；真机推理/训练阶段配套PhoneSafety工具，识别支付、通讯录读写等高风险动作时自动暂停执行，弹出人工确认流程，规避财产与隐私风险。

Q7：能否基于PhoneBuddy二次开发自有手机自动化产品？

A：项目采用开源可商用协议，模型权重、训练代码均可自由二次修改、集成至自有系统；仅需遵循开源协议标注原项目来源，无商用授权限制。

八、官方链接

GitHub主仓库：https://github.com/PhoneBuddyAI/phonebuddy
Hugging Face开源模型库：https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
项目官方主页：https://phonebuddyai.github.io/
arXiv论文地址：https://arxiv.org/abs/2606.23049

九、总结

PhoneBuddy是当前移动端GUI智能体领域少有的、完整覆盖仿真环境、混合强化学习训练、标准化评测、隐私安全校验全流程的开源研发框架，通过独创真机+模拟双环境训练方案解决了传统手机AI代理训练成本高、落地效果差两大核心痛点，配套轻量化专用手机操作模型降低了端侧自动化与AI科研的技术门槛，完整工具链覆盖学术研究、企业App测试、无障碍辅助、合规安全检测等多元落地场景，为国内移动端智能体开发者提供了一套无需从零搭建、可直接复现与二次开发的标准化技术栈。

AI Agent AI智能体 AI框架开源项目

打赏

版权及免责申明：本文由@AI工具集原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/phonebuddy.html

THE END

AI工具集

工具不孤岛，AI集大成——这里有你要的一切智能解法

+ 关注

PhoneBuddy：腾讯混元开源的手机智能代理混合强化学习训练框架

文章目录

一、PhoneBuddy 是什么

二、功能特色

1. 混合强化学习核心训练能力

2. 完整配套5件套工具生态

3. 开源多尺寸专用手机操作模型

4. 标准化手机任务评测体系

5. 低门槛推理部署方案

6. 安全与隐私双重校验机制

三、技术细节

1. 整体技术架构

2. 模型技术规范

3. 训练性能量化数据

4. 开发语言与仓库结构

四、应用场景

五、使用方法

前置环境要求

步骤1：克隆官方仓库

步骤2：下载开源模型权重

步骤3：环境二选一（真机/仿真）

步骤4：两种推理调用方式

步骤5：模型训练（进阶）

六、竞品对比

七、常见问题解答（FAQ）

八、官方链接

九、总结

相关文章