肉包(Roubao):无需电脑的开源AI手机自动化助手,自然语言操控全场景任务

原创 发布日期:
64

一、肉包(Roubao)是什么

肉包(Roubao)是一款完全开源、纯Android原生运行、无需电脑辅助的AI手机自动化助手,由开发者Turbo1123基于Kotlin语言开发,遵循MIT开源协议发布。它的核心定位是:让普通用户不写代码、不连电脑、不配置复杂环境,仅用自然语言就能指挥手机自动完成点外卖、发消息、查信息、发动态、跨应用协作等一系列高频操作。

该项目诞生的初衷,是为了打破商业AI手机助手的设备与价格壁垒,同时解决传统开源自动化工具依赖电脑、ADB命令、Python脚本、技术门槛高、普通用户无法使用的痛点。肉包将视觉语言模型(VLM)能力、多Agent智能决策、系统级操作权限整合在单一App内,实现“截图→分析→决策→执行”全流程本地运行,把AI自动化能力真正下放给每一位安卓用户。

从技术本质来看,肉包是对阿里MobileAgent、AutoGLM等自动化框架的移动端原生重构,它剥离了PC依赖,采用Shizuku权限框架获取系统操作能力,搭配Skills+Tools双层智能架构,让手机具备“看懂屏幕、理解意图、自主操作”的类人执行能力。

与闭源高价的商业AI手机助手不同,肉包100%开源、免费、无广告、无内购,用户可自由修改、编译、分发,也可根据自身需求对接不同VLM模型,实现高度私有化与定制化。它不是简单的脚本自动化,而是具备任务规划、步骤拆解、异常处理、执行反思的智能体(Agent),能够处理多步骤、跨页面、跨应用的复杂链式任务。

截至当前版本(v1.4.2),肉包已在GitHub获得大量开发者关注,支持市面主流Android定制系统,兼容通义千问、GPT-4V、Claude、Ollama本地模型等多种后端,是目前移动端最成熟、门槛最低、生态最开放的AI自动化开源项目之一。

肉包(Roubao):无需电脑的开源AI手机自动化助手,自然语言操控全场景任务

二、功能特色

肉包的核心竞争力集中在零门槛、全原生、高智能、强兼容、可定制五大维度,相比传统自动化工具与商业闭源产品,具备不可替代的优势。

(一)核心功能

  1. 自然语言指令接收
    用户只需用日常说话的方式输入任务,例如“帮我点一份附近的麻辣烫”“给微信好友发送今天的截图”“打开抖音查看热门视频并点赞”,肉包自动理解意图并规划执行路径。

  2. 屏幕视觉理解
    借助VLM视觉语言模型实时分析屏幕内容,识别按钮、输入框、文字、图片、页面状态,像人一样“看懂”手机界面,不依赖控件ID与布局解析,适配所有App界面变化。

  3. 全系统模拟操作
    支持模拟点击、滑动、输入文字、长按、返回、主页、打开应用、复制粘贴、调用系统相机、执行Shell命令等全套系统操作,覆盖人工使用手机的全部动作。

  4. 多步骤任务自动执行
    可自主拆解复杂任务为原子步骤,按逻辑顺序执行,遇到页面加载、弹窗、验证步骤会自动等待与处理,具备基础的异常重试与执行反思能力。

  5. 多模型自由切换
    内置通义千问、GPT-4V、Claude、Ollama本地模型等多种VLM接口,用户只需填写API Key即可一键切换,不绑定任何厂商云服务,支持私有化部署。

  6. 执行记录与日志查看
    自动保存任务执行历史,展示成功/失败状态、执行步骤、耗时、错误原因,支持手动删除与批量管理,方便用户排查问题与复现任务。

  7. 轻量化无侵入
    安装包体积小,不占用大量内存,不强制ROOT,不修改系统分区,不收集用户隐私数据,所有任务逻辑与截图分析均在本地完成。

(二)特色优势对比

对比维度 肉包(Roubao) 传统开源自动化(如基于Python+ADB) 商业AI手机助手
是否需要电脑 不需要 必须连接电脑 不需要
是否需要ROOT 不需要 部分需要 不需要
运行环境 手机本地原生 PC端运行,手机仅作为被控端 手机系统级内置
开发语言 Kotlin(Android原生) Python/Shell 闭源原生
开源程度 全量开源(MIT) 部分开源 完全闭源
使用门槛 安装即用,配置API Key 需编程基础、ADB调试 购买指定设备
模型定制 支持多模型/本地模型 需自行对接 仅内置官方模型
价格成本 完全免费 免费但学习成本高 设备价格高

(三)体验亮点

  • 纯移动端闭环:从指令输入到任务完成,全程不离开手机,打破PC依赖。

  • Material3设计:界面现代化,支持深色/浅色模式,动画流畅,操作直观。

  • 权限安全可控:基于Shizuku授权,用户可随时收回权限,隐私可控。

  • 低性能消耗:后台占用低,执行任务时不会导致手机明显发热卡顿。

  • 开箱即用:无复杂初始化流程,新手1分钟内可完成基础配置。

三、技术细节

肉包的技术架构清晰、模块化程度高,是移动端AI Agent工程化落地的典型实践,整体采用分层解耦、智能调度、权限隔离、本地优先的设计理念。

(一)整体技术栈

  • 开发语言:Kotlin(Android原生)

  • 核心框架:Shizuku(系统权限)、MobileAgent-v3(Agent逻辑)

  • AI能力:视觉语言模型(VLM)通用接入层

  • 界面设计:Material You(Material3)

  • 数据存储:本地JSON文件(轻量存储)

  • 权限方案:Shizuku+无障碍服务(混合权限模式)

  • 支持系统:Android 8.0及以上

(二)四层架构设计

  1. Agent智能层
    包含任务规划器(Manager)、执行器(Executor)、反思器(Reflector)三大组件,负责接收用户指令、拆解任务、判断执行条件、处理异常、复盘执行结果,是肉包的“大脑”。

  2. Skills技能层
    面向用户意图的封装层,分为两种执行模式:

  • 委托模式:高置信度任务直接通过DeepLink跳转到对应App功能页,速度最快。

  • GUI自动化:无直达入口时,启动“截图→分析→操作”循环,模拟人工完成。

  1. Tools工具层
    原子化操作能力集合,所有底层操作被封装为独立Tool,由ToolManager统一调度,包括:

  • 系统操作:tap、swipe、input、back、home、openApp

  • 数据交互:clipboard、shell、http

  • 辅助能力:screenCapture、appSearch、waitFor

  1. 系统控制层
    基于Shizuku实现免ROOT系统权限,获取截图、坐标点击、模拟输入等能力,替代传统ADB,保证兼容性与安全性。

(三)核心执行流程

用户输入自然语言指令 → Agent接收并意图识别 → 规划执行步骤 → 调用Tools层执行操作 → 截图回传VLM分析 → 决策下一步 → 循环直至任务完成 → 生成执行日志。

(四)关键技术点

  1. VLM视觉理解
    不依赖UI自动化框架,直接通过图像识别理解界面,适配所有App版本与界面变化。

  2. 无ADB控制
    用Shizuku实现系统级操作,普通用户无需电脑即可授权。

  3. 双层技能体系
    Skills处理业务意图,Tools处理原子操作,解耦让扩展更简单。

  4. 执行反思机制
    每一步执行后校验结果,失败自动重试或调整策略,提升成功率。

  5. 多模型适配器
    统一VLM接口层,用户切换模型只需修改配置,无需改动核心逻辑。

(五)代码结构(核心目录)

app/src/main/java/com/roubao/autopilot/
├── agent/    # 多Agent核心:规划、执行、反思
├── tools/    # 原子工具集:点击、滑动、打开应用等
├── skills/   # 技能层:意图匹配与任务编排
├── controller/ # 设备控制:Shizuku、截图、权限
├── vlm/     # 视觉模型接口:多厂商适配
├── ui/     # 页面:首页、日志、设置
├── data/    # 存储:执行记录、配置
└── App.kt    # 应用入口

肉包(Roubao):无需电脑的开源AI手机自动化助手,自然语言操控全场景任务

四、应用场景

肉包面向普通用户、效率爱好者、开发者、无障碍需求人群四类群体,覆盖日常生活、办公、娱乐、创作等全场景。

(一)日常生活场景

  1. 外卖/购物自动化
    自然语言指令:“帮我在美团点一份xx店的炸鸡”,自动打开App→搜索店铺→选择商品→提交订单。

  2. 社交消息发送
    “给微信好友xx发送我刚保存的截图”,自动找截图→打开聊天页→发送图片。

  3. 娱乐内容操作
    “打开B站播放今日热门视频并投币点赞”,全自动完成互动操作。

(二)办公效率场景

  1. 文件传输与整理
    自动把下载文件移动到指定目录,或发送到钉钉/企业微信。

  2. 信息查询与汇总
    “查今天的天气并发送到家庭群”,自动获取信息→编辑→发送。

  3. 定时任务辅助
    配合系统闹钟,每天固定时间自动打开考勤App打卡。

(三)无障碍辅助场景

针对手部不便、视力障碍用户,通过语音转文字+肉包自动化,实现手机全功能操作,降低身体限制带来的使用门槛。

(四)开发者调试场景

开发者可用于App自动化测试,连续执行点击、输入、返回等操作,验证界面稳定性与流程正确性。

(五)批量操作场景

  • 批量给图片添加水印并发布到社交平台

  • 批量清理手机截图与缓存文件

  • 批量导出聊天记录或文件

肉包的能力不局限于预设场景,只要是人能用手完成的手机操作,理论上都可用自然语言交给肉包自动执行。

五、使用方法

(一)前置条件

  1. 设备:Android 8.0及以上手机

  2. 权限:安装并激活Shizuku(无需ROOT)

  3. AI配置:一个可用的VLM API Key(推荐通义千问)

(二)安装步骤

  1. 从GitHub仓库Release页下载最新APK

  2. 允许安装未知来源应用

  3. 打开肉包,按提示授权:无障碍、悬浮窗、文件、截图

  4. 激活Shizuku并授权肉包

  5. 进入设置页填写VLM API Key

(三)基础使用流程

  1. 打开肉包主页

  2. 在输入框输入自然语言任务

  3. 点击开始执行

  4. 等待自动完成,查看实时日志

  5. 在历史页查看执行记录

(四)指令示例(可直接复制使用)

  • 帮我打开网易云音乐播放每日推荐歌单

  • 把我相册最后一张图片发到微信朋友圈

  • 查询今天成都的天气并告诉我

  • 打开抖音,滑动3个视频并点赞

  • 在淘宝搜索无线蓝牙耳机,按销量排序

(五)开发者构建方法

  1. 克隆仓库:git clone https://github.com/Turbo1123/roubao.git

  2. 用Android Studio打开

  3. 连接设备或启动模拟器

  4. 运行./gradlew assembleDebug编译

  5. 运行./gradlew installDebug安装

肉包(Roubao):无需电脑的开源AI手机自动化助手,自然语言操控全场景任务

六、常见问题解答(FAQ)

Q:肉包需要ROOT权限吗?

A:不需要,肉包基于Shizuku框架实现系统操作,普通用户无需ROOT即可使用。

Q:使用肉包必须连接电脑吗?

A:完全不需要,肉包是纯手机端运行的App,安装配置后即可独立使用。

Q:肉包支持哪些AI模型?

A:支持通义千问、GPT-4V、Claude、Ollama本地模型等主流视觉语言模型,可在设置内自由切换。

Q:为什么执行时点击位置不准确?

A:可能是屏幕分辨率适配问题、弹窗遮挡或界面加载未完成,可等待页面完全加载后重试,或在GitHub提交Issue反馈设备型号。

Q:肉包会收集我的隐私数据吗?

A:不会,所有截图与任务逻辑均在手机本地处理,仅VLM模型接口会传输必要的屏幕画面用于分析,用户可选择私有部署模型保证安全。

Q:支持小米、华为、OPPO、vivo等定制系统吗?

A:支持主流Android定制系统,部分厂商需要手动开启后台权限、悬浮窗、无障碍权限。

Q:执行任务失败怎么办?

A:查看执行日志了解失败原因,检查网络、API Key、权限是否正常,简化指令重新执行,复杂问题可在Issue反馈。

Q:可以自己添加功能或修改逻辑吗?

A:可以,项目采用MIT开源协议,任何人可自由Fork、修改、编译、分发,也欢迎提交PR贡献功能。

Q:肉包支持定时任务吗?

A:当前版本暂未内置定时任务,可通过系统闹钟+快捷指令间接实现,未来版本可能支持。

Q:必须使用Shizuku吗?

A:是的,Shizuku是肉包获取系统操作权限的核心依赖,未安装则无法执行点击、截图等操作。

七、相关链接

八、总结

肉包(Roubao)是一款真正意义上面向普通用户的轻量化、开源、免费Android AI手机自动化助手,它以原生Kotlin开发、全流程本地运行、无需电脑与ROOT、自然语言操控为核心优势,通过视觉语言模型与多Agent智能架构,让手机具备自主理解、规划、执行复杂任务的能力,既打破了商业AI手机助手的设备与价格壁垒,又解决了传统开源自动化工具门槛高、依赖PC的痛点,在日常使用、效率提升、无障碍辅助、开发测试等场景均具备极高实用价值,同时凭借MIT协议与模块化架构,为开发者提供了可自由定制、扩展、二次开发的移动端AI自动化基础框架,是当前安卓生态中兼具易用性、开放性与实用性的代表性自动化项目。

打赏
THE END
作者头像
AI工具集
工具不孤岛,AI集大成——这里有你要的一切智能解法