肉包(Roubao):无需电脑的开源AI手机自动化助手,自然语言操控全场景任务
一、肉包(Roubao)是什么
肉包(Roubao)是一款完全开源、纯Android原生运行、无需电脑辅助的AI手机自动化助手,由开发者Turbo1123基于Kotlin语言开发,遵循MIT开源协议发布。它的核心定位是:让普通用户不写代码、不连电脑、不配置复杂环境,仅用自然语言就能指挥手机自动完成点外卖、发消息、查信息、发动态、跨应用协作等一系列高频操作。
该项目诞生的初衷,是为了打破商业AI手机助手的设备与价格壁垒,同时解决传统开源自动化工具依赖电脑、ADB命令、Python脚本、技术门槛高、普通用户无法使用的痛点。肉包将视觉语言模型(VLM)能力、多Agent智能决策、系统级操作权限整合在单一App内,实现“截图→分析→决策→执行”全流程本地运行,把AI自动化能力真正下放给每一位安卓用户。
从技术本质来看,肉包是对阿里MobileAgent、AutoGLM等自动化框架的移动端原生重构,它剥离了PC依赖,采用Shizuku权限框架获取系统操作能力,搭配Skills+Tools双层智能架构,让手机具备“看懂屏幕、理解意图、自主操作”的类人执行能力。
与闭源高价的商业AI手机助手不同,肉包100%开源、免费、无广告、无内购,用户可自由修改、编译、分发,也可根据自身需求对接不同VLM模型,实现高度私有化与定制化。它不是简单的脚本自动化,而是具备任务规划、步骤拆解、异常处理、执行反思的智能体(Agent),能够处理多步骤、跨页面、跨应用的复杂链式任务。
截至当前版本(v1.4.2),肉包已在GitHub获得大量开发者关注,支持市面主流Android定制系统,兼容通义千问、GPT-4V、Claude、Ollama本地模型等多种后端,是目前移动端最成熟、门槛最低、生态最开放的AI自动化开源项目之一。

二、功能特色
肉包的核心竞争力集中在零门槛、全原生、高智能、强兼容、可定制五大维度,相比传统自动化工具与商业闭源产品,具备不可替代的优势。
(一)核心功能
自然语言指令接收
用户只需用日常说话的方式输入任务,例如“帮我点一份附近的麻辣烫”“给微信好友发送今天的截图”“打开抖音查看热门视频并点赞”,肉包自动理解意图并规划执行路径。屏幕视觉理解
借助VLM视觉语言模型实时分析屏幕内容,识别按钮、输入框、文字、图片、页面状态,像人一样“看懂”手机界面,不依赖控件ID与布局解析,适配所有App界面变化。全系统模拟操作
支持模拟点击、滑动、输入文字、长按、返回、主页、打开应用、复制粘贴、调用系统相机、执行Shell命令等全套系统操作,覆盖人工使用手机的全部动作。多步骤任务自动执行
可自主拆解复杂任务为原子步骤,按逻辑顺序执行,遇到页面加载、弹窗、验证步骤会自动等待与处理,具备基础的异常重试与执行反思能力。多模型自由切换
内置通义千问、GPT-4V、Claude、Ollama本地模型等多种VLM接口,用户只需填写API Key即可一键切换,不绑定任何厂商云服务,支持私有化部署。执行记录与日志查看
自动保存任务执行历史,展示成功/失败状态、执行步骤、耗时、错误原因,支持手动删除与批量管理,方便用户排查问题与复现任务。轻量化无侵入
安装包体积小,不占用大量内存,不强制ROOT,不修改系统分区,不收集用户隐私数据,所有任务逻辑与截图分析均在本地完成。
(二)特色优势对比
| 对比维度 | 肉包(Roubao) | 传统开源自动化(如基于Python+ADB) | 商业AI手机助手 |
|---|---|---|---|
| 是否需要电脑 | 不需要 | 必须连接电脑 | 不需要 |
| 是否需要ROOT | 不需要 | 部分需要 | 不需要 |
| 运行环境 | 手机本地原生 | PC端运行,手机仅作为被控端 | 手机系统级内置 |
| 开发语言 | Kotlin(Android原生) | Python/Shell | 闭源原生 |
| 开源程度 | 全量开源(MIT) | 部分开源 | 完全闭源 |
| 使用门槛 | 安装即用,配置API Key | 需编程基础、ADB调试 | 购买指定设备 |
| 模型定制 | 支持多模型/本地模型 | 需自行对接 | 仅内置官方模型 |
| 价格成本 | 完全免费 | 免费但学习成本高 | 设备价格高 |
(三)体验亮点
纯移动端闭环:从指令输入到任务完成,全程不离开手机,打破PC依赖。
Material3设计:界面现代化,支持深色/浅色模式,动画流畅,操作直观。
权限安全可控:基于Shizuku授权,用户可随时收回权限,隐私可控。
低性能消耗:后台占用低,执行任务时不会导致手机明显发热卡顿。
开箱即用:无复杂初始化流程,新手1分钟内可完成基础配置。
三、技术细节
肉包的技术架构清晰、模块化程度高,是移动端AI Agent工程化落地的典型实践,整体采用分层解耦、智能调度、权限隔离、本地优先的设计理念。
(一)整体技术栈
开发语言:Kotlin(Android原生)
核心框架:Shizuku(系统权限)、MobileAgent-v3(Agent逻辑)
AI能力:视觉语言模型(VLM)通用接入层
界面设计:Material You(Material3)
数据存储:本地JSON文件(轻量存储)
权限方案:Shizuku+无障碍服务(混合权限模式)
支持系统:Android 8.0及以上
(二)四层架构设计
Agent智能层
包含任务规划器(Manager)、执行器(Executor)、反思器(Reflector)三大组件,负责接收用户指令、拆解任务、判断执行条件、处理异常、复盘执行结果,是肉包的“大脑”。Skills技能层
面向用户意图的封装层,分为两种执行模式:
委托模式:高置信度任务直接通过DeepLink跳转到对应App功能页,速度最快。
GUI自动化:无直达入口时,启动“截图→分析→操作”循环,模拟人工完成。
Tools工具层
原子化操作能力集合,所有底层操作被封装为独立Tool,由ToolManager统一调度,包括:
系统操作:tap、swipe、input、back、home、openApp
数据交互:clipboard、shell、http
辅助能力:screenCapture、appSearch、waitFor
系统控制层
基于Shizuku实现免ROOT系统权限,获取截图、坐标点击、模拟输入等能力,替代传统ADB,保证兼容性与安全性。
(三)核心执行流程
用户输入自然语言指令 → Agent接收并意图识别 → 规划执行步骤 → 调用Tools层执行操作 → 截图回传VLM分析 → 决策下一步 → 循环直至任务完成 → 生成执行日志。
(四)关键技术点
VLM视觉理解
不依赖UI自动化框架,直接通过图像识别理解界面,适配所有App版本与界面变化。无ADB控制
用Shizuku实现系统级操作,普通用户无需电脑即可授权。双层技能体系
Skills处理业务意图,Tools处理原子操作,解耦让扩展更简单。执行反思机制
每一步执行后校验结果,失败自动重试或调整策略,提升成功率。多模型适配器
统一VLM接口层,用户切换模型只需修改配置,无需改动核心逻辑。
(五)代码结构(核心目录)
app/src/main/java/com/roubao/autopilot/ ├── agent/ # 多Agent核心:规划、执行、反思 ├── tools/ # 原子工具集:点击、滑动、打开应用等 ├── skills/ # 技能层:意图匹配与任务编排 ├── controller/ # 设备控制:Shizuku、截图、权限 ├── vlm/ # 视觉模型接口:多厂商适配 ├── ui/ # 页面:首页、日志、设置 ├── data/ # 存储:执行记录、配置 └── App.kt # 应用入口

四、应用场景
肉包面向普通用户、效率爱好者、开发者、无障碍需求人群四类群体,覆盖日常生活、办公、娱乐、创作等全场景。
(一)日常生活场景
外卖/购物自动化
自然语言指令:“帮我在美团点一份xx店的炸鸡”,自动打开App→搜索店铺→选择商品→提交订单。社交消息发送
“给微信好友xx发送我刚保存的截图”,自动找截图→打开聊天页→发送图片。娱乐内容操作
“打开B站播放今日热门视频并投币点赞”,全自动完成互动操作。
(二)办公效率场景
文件传输与整理
自动把下载文件移动到指定目录,或发送到钉钉/企业微信。信息查询与汇总
“查今天的天气并发送到家庭群”,自动获取信息→编辑→发送。定时任务辅助
配合系统闹钟,每天固定时间自动打开考勤App打卡。
(三)无障碍辅助场景
针对手部不便、视力障碍用户,通过语音转文字+肉包自动化,实现手机全功能操作,降低身体限制带来的使用门槛。
(四)开发者调试场景
开发者可用于App自动化测试,连续执行点击、输入、返回等操作,验证界面稳定性与流程正确性。
(五)批量操作场景
批量给图片添加水印并发布到社交平台
批量清理手机截图与缓存文件
批量导出聊天记录或文件
肉包的能力不局限于预设场景,只要是人能用手完成的手机操作,理论上都可用自然语言交给肉包自动执行。
五、使用方法
(一)前置条件
设备:Android 8.0及以上手机
权限:安装并激活Shizuku(无需ROOT)
AI配置:一个可用的VLM API Key(推荐通义千问)
(二)安装步骤
从GitHub仓库Release页下载最新APK
允许安装未知来源应用
打开肉包,按提示授权:无障碍、悬浮窗、文件、截图
激活Shizuku并授权肉包
进入设置页填写VLM API Key
(三)基础使用流程
打开肉包主页
在输入框输入自然语言任务
点击开始执行
等待自动完成,查看实时日志
在历史页查看执行记录
(四)指令示例(可直接复制使用)
帮我打开网易云音乐播放每日推荐歌单
把我相册最后一张图片发到微信朋友圈
查询今天成都的天气并告诉我
打开抖音,滑动3个视频并点赞
在淘宝搜索无线蓝牙耳机,按销量排序
(五)开发者构建方法
克隆仓库:git clone https://github.com/Turbo1123/roubao.git
用Android Studio打开
连接设备或启动模拟器
运行./gradlew assembleDebug编译
运行./gradlew installDebug安装

六、常见问题解答(FAQ)
Q:肉包需要ROOT权限吗?
A:不需要,肉包基于Shizuku框架实现系统操作,普通用户无需ROOT即可使用。
Q:使用肉包必须连接电脑吗?
A:完全不需要,肉包是纯手机端运行的App,安装配置后即可独立使用。
Q:肉包支持哪些AI模型?
A:支持通义千问、GPT-4V、Claude、Ollama本地模型等主流视觉语言模型,可在设置内自由切换。
Q:为什么执行时点击位置不准确?
A:可能是屏幕分辨率适配问题、弹窗遮挡或界面加载未完成,可等待页面完全加载后重试,或在GitHub提交Issue反馈设备型号。
Q:肉包会收集我的隐私数据吗?
A:不会,所有截图与任务逻辑均在手机本地处理,仅VLM模型接口会传输必要的屏幕画面用于分析,用户可选择私有部署模型保证安全。
Q:支持小米、华为、OPPO、vivo等定制系统吗?
A:支持主流Android定制系统,部分厂商需要手动开启后台权限、悬浮窗、无障碍权限。
Q:执行任务失败怎么办?
A:查看执行日志了解失败原因,检查网络、API Key、权限是否正常,简化指令重新执行,复杂问题可在Issue反馈。
Q:可以自己添加功能或修改逻辑吗?
A:可以,项目采用MIT开源协议,任何人可自由Fork、修改、编译、分发,也欢迎提交PR贡献功能。
Q:肉包支持定时任务吗?
A:当前版本暂未内置定时任务,可通过系统闹钟+快捷指令间接实现,未来版本可能支持。
Q:必须使用Shizuku吗?
A:是的,Shizuku是肉包获取系统操作权限的核心依赖,未安装则无法执行点击、截图等操作。
七、相关链接
GitHub项目主页:https://github.com/Turbo1123/roubao
八、总结
肉包(Roubao)是一款真正意义上面向普通用户的轻量化、开源、免费Android AI手机自动化助手,它以原生Kotlin开发、全流程本地运行、无需电脑与ROOT、自然语言操控为核心优势,通过视觉语言模型与多Agent智能架构,让手机具备自主理解、规划、执行复杂任务的能力,既打破了商业AI手机助手的设备与价格壁垒,又解决了传统开源自动化工具门槛高、依赖PC的痛点,在日常使用、效率提升、无障碍辅助、开发测试等场景均具备极高实用价值,同时凭借MIT协议与模块化架构,为开发者提供了可自由定制、扩展、二次开发的移动端AI自动化基础框架,是当前安卓生态中兼具易用性、开放性与实用性的代表性自动化项目。
版权及免责申明:本文由@AI工具集原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/roubao.html

