PokeClaw:端侧AI手机智能体,本地隐私优先的安卓自动化控制工具
一、PokeClaw是什么
PokeClaw(又名PocketClaw)是由agents-io团队开源发布的Android端侧AI手机智能体,属于面向移动设备的轻量化AI自动化框架,项目采用Kotlin语言开发,以Apache 2.0开源协议授权,兼容Android 9及以上版本系统。
与传统手机自动化工具、云端AI助手不同,PokeClaw的核心定位是本地优先、隐私至上、零代码易用的手机智能控制工具,它将谷歌Gemma 4 E2B轻量级大模型完整部署在手机本地,不依赖云端API、不要求联网、不需要付费订阅,通过安卓无障碍服务构建“屏幕感知—语义理解—决策执行—结果反馈”的完整闭环,让用户仅通过自然语言指令,就能实现对手机各类应用与系统功能的自动化操控。
PokeClaw并非简单的语音助手或固定流程自动化工具,而是一套可独立思考、自主决策的移动智能体引擎。它能够读取当前屏幕界面信息,理解用户的模糊指令与上下文意图,自主选择点击、输入、跳转、发送、查询等操作,完成单步或多步骤链式任务,同时全程保证用户数据不离开设备,从根源上解决手机AI操控场景中的隐私泄露问题。
项目面向两类核心人群:一是希望通过AI简化手机操作、提升使用效率的普通安卓用户;二是需要基于端侧AI能力二次开发手机智能体、自动化插件的开发者。PokeClaw既提供开箱即用的APK安装包,也开放完整源码,支持自定义模型、工具集与交互逻辑,具备极强的扩展性与适配能力。
二、PokeClaw功能特色
纯本地离线运行,隐私安全零泄露
内置Gemma 4 E2B端侧大模型,所有推理计算均在手机本地完成,无需联网、无需API密钥、无任何订阅付费项。
屏幕内容、操作指令、聊天记录等敏感数据仅存储在设备本地,不向任何云端服务器上传、中转或备份。
离线状态下可正常执行绝大多数自动化任务,不受网络环境限制。
自然语言指令操控,零代码上手使用
支持文字与语音两种输入方式,用户使用日常口语即可下达指令,无需学习编程语法或配置规则。
具备上下文理解能力,可识别省略句、指代性描述,精准执行多步骤复杂任务。
无需手动编写脚本、设置触发条件,降低手机自动化的使用门槛。
智能消息监控与场景化自动回复
支持WhatsApp等主流社交应用的消息监控,可自定义联系人白名单。
基于对话上下文智能生成回复内容,适配家人沟通、工作通知、日常问候等不同场景。
可自由开启或关闭监控功能,灵活控制自动回复范围。
屏幕视觉理解与全流程自主执行
通过无障碍服务解析手机UI界面结构,将控件信息转化为模型可理解的文本内容。
自主完成点击、输入、滑动、返回、打开应用、发送内容等模拟人工操作。
实现感知、决策、执行、反馈的完整闭环,无需人工干预即可完成任务。
多档位性能适配,覆盖全机型梯队
针对旗舰芯片、中端设备、入门级手机分别优化推理速度与资源占用。
支持本地模型与云端模型自由切换,复杂任务可灵活调用更强算力。
安装包轻量化,模型文件内置,无需额外下载资源包。
开源可扩展,支持二次开发定制
完整源码开放,开发者可修改模型配置、新增操作工具、优化交互逻辑。
提供标准化执行接口,便于集成到其他安卓应用或智能体项目中。
无商用限制,符合Apache 2.0协议即可自由使用与分发。
三、PokeClaw技术细节
1. 核心技术栈
开发语言:Kotlin(Android原生开发,兼容主流安卓系统版本)
端侧推理引擎:LiteRT-LM轻量级推理框架,适配移动端硬件环境
核心大模型:Gemma 4 E2B(谷歌开源轻量大模型,专为端侧部署优化)
系统交互能力:Android AccessibilityService无障碍服务
构建工具:Gradle Kotlin DSL,支持标准化编译与打包
2. 整体执行流程
PokeClaw的运行逻辑遵循标准化智能体执行链路,具体流程如下:
屏幕UI结构捕获 → 界面信息文本化 → 本地大模型推理解析 → 生成操作指令 → 无障碍服务执行动作 → 执行结果反馈与校验
感知阶段:无障碍服务读取当前屏幕的UI层级、控件文本、位置、类型等信息,完成界面数字化。
理解阶段:将结构化界面信息与用户指令拼接,输入Gemma 4模型进行意图识别与任务拆解。
决策阶段:模型输出可执行的标准化操作指令,如点击、输入文字、打开应用、发送消息等。
执行阶段:无障碍服务模拟人手操作,精准执行模型下达的指令。
反馈阶段:捕获操作后的界面变化,判断任务是否完成,未完成则进入下一轮循环。
3. 性能适配表现
| 设备硬件类型 | 模型首次启动时间 | 常规推理响应 | 运行内存占用 |
|---|---|---|---|
| 旗舰芯片(Tensor G3/G4、骁龙8 Gen2/3、天玑9200/9300) | 1–3秒 | 实时响应 | 适中 |
| 中端安卓设备(骁龙7系列、天玑8000系列) | 10–20秒 | 流畅执行 | 可控 |
| 入门级CPU设备 | 40–50秒 | 低速稳定运行 | 略高 |
4. 权限与安全设计
仅申请无障碍服务权限与通知读取权限,无通讯录、定位、存储等多余权限。
模型文件内置在安装包中,安装后无需联网下载额外资源。
操作日志本地存储,支持一键清除,不产生云端痕迹。
无后台数据上传逻辑,从代码层面杜绝隐私泄露可能。

四、PokeClaw应用场景
日常社交消息自动化
针对微信、WhatsApp等社交应用,自动监控重要联系人消息,在忙碌时智能回复基础问题;批量发送节日祝福、工作通知,减少重复手动操作;自动整理聊天关键信息并保存至备忘录,提升信息处理效率。办公场景效率提升
语音指令打开办公文档、编辑表格、发送邮件;自动设置日程提醒、创建待办事项;跨应用提取信息并汇总,快速生成工作草稿;解放双手完成高频重复操作,提高办公效率。生活服务便捷操作
语音查询天气、快递、公交地铁信息,自动播报结果;打开外卖、购票、出行软件,辅助完成筛选与下单;定时执行闹钟设置、音量调节、电量低提醒等系统操作,简化日常使用步骤。特殊人群易用化辅助
老年人可通过简单语音指令操作复杂应用,降低学习成本;残障用户借助语音交互实现全手机操控,提升设备使用自主性;驾驶场景中语音控制手机,减少手动操作,提高出行安全。信息采集与整理
自动搜索指定内容并汇总文本,保存至笔记应用;提取屏幕文字、完成翻译与整理;监控关注内容更新,及时推送提醒,实现轻量化信息助手功能。
五、PokeClaw使用方法
1. 环境要求
操作系统:Android 9.0及以上版本
存储空间:预留2GB以上空间用于模型解压与运行
权限设置:允许安装未知来源应用、开启无障碍服务
建议配置:旗舰处理器手机可获得最佳流畅体验
2. 安装步骤
前往GitHub仓库Releases页面下载最新版APK安装包。
在手机设置中开启“允许来自未知来源的应用”权限。
点击APK文件完成安装,打开应用后按照引导授予无障碍服务权限。
首次启动自动解压内置模型,等待加载完成即可进入主界面。
选择文字或语音输入方式,开始使用自然语言操控手机。
3. 常用指令示例
# 社交消息指令 给小张发送WhatsApp消息:下午三点准时开会 # 应用操作指令 打开抖音搜索端侧AI手机智能体 # 系统设置指令 设置明天早上7点的闹钟 # 信息查询指令 查询今天北京的天气并播报 # 自动回复指令 开启家人消息自动回复
4. 高级配置说明
模型切换:在设置页面选择本地Gemma 4模型或手动配置云端模型。
监控设置:自定义社交应用监控名单,仅对指定联系人开启自动回复。
性能调节:根据设备配置调整推理速度优先级,平衡流畅度与耗电量。
隐私设置:开启/关闭操作日志,一键清除本地记录,保护使用痕迹。
六、PokeClaw竞品对比
本次选取行业内具有代表性的Tasker、AutoGLM-Phone、豆包手机助手三款产品,从核心维度与PokeClaw展开对比:
| 对比维度 | PokeClaw | Tasker | AutoGLM-Phone | 豆包手机助手 |
|---|---|---|---|---|
| 部署模式 | 纯端侧本地运行 | 本地脚本执行 | 本地+云端混合 | 纯云端依赖 |
| 使用门槛 | 自然语言指令,零代码 | 需编写脚本,学习成本高 | 基础指令简易,复杂需开发 | 自然语言,需账号绑定 |
| 隐私安全性 | 数据不上云,全程本地 | 本地存储,无云端风险 | 部分数据上传云端 | 数据上传至厂商服务器 |
| 上下文理解 | 强,支持多轮对话推理 | 无语义理解,仅执行固定流程 | 中等,支持基础上下文 | 强,依赖云端算力 |
| 界面适配能力 | 自适应UI变化,鲁棒性强 | 依赖固定控件,易失效 | 自适应能力较好 | 系统级适配,部分应用受限 |
| 使用成本 | 开源免费,无任何付费项 | 付费软件,一次性购买 | 开源免费,云端需付费 | 基础免费,高级功能付费 |
| 离线可用能力 | 全功能离线支持 | 完全离线 | 基础功能离线 | 无网无法使用 |
从对比结果可以看出,PokeClaw是目前少数同时具备纯本地隐私保护、零代码自然语言操控、强AI语义理解的手机智能体工具。它既解决了Tasker学习成本过高的问题,又避免了云端AI助手的数据上传风险,同时相比AutoGLM-Phone拥有更轻量化的部署方式与更友好的普通用户体验,在移动端AI自动化领域具备独特优势。
七、常见问题解答
PokeClaw支持的最低安卓版本是多少?
PokeClaw最低支持Android 9.0(API Level 28),推荐在Android 11及以上版本使用,无障碍服务兼容性更稳定。
首次启动为什么加载速度很慢?
首次启动需要解压内置的Gemma 4模型文件,入门级CPU设备解压时间较长,属于正常现象,后续启动会直接加载已解压模型,速度会明显加快。
使用PokeClaw会上传我的个人数据吗?
不会。PokeClaw所有推理与操作均在本地完成,应用没有联网上传数据的逻辑,不会收集、上传或泄露任何个人信息、屏幕内容与操作记录。
没有网络连接时可以正常使用吗?
可以。PokeClaw核心功能完全基于本地模型运行,断网状态下依然可以执行消息回复、应用操控、系统设置等所有主要功能,仅手动切换云端模型时需要网络。
哪些手机运行PokeClaw体验最好?
搭载Google Tensor G3/G4、骁龙8 Gen2/Gen3、天玑9200/9300等旗舰芯片的安卓设备,可实现模型秒级启动与指令实时响应,使用体验最佳。
为什么部分应用无法实现自动操作?
部分应用对无障碍服务做了限制,或界面UI结构动态变化频繁,会导致模型识别与执行成功率下降,可尝试更新应用版本或在设置中调整识别相关参数。
能否自定义专属的自动化任务?
普通用户可通过自然语言指令自定义任务,开发者可通过修改项目源码添加自定义工具、操作逻辑与模型配置,实现高度个性化的自动化流程。
PokeClaw后台运行耗电严重吗?
后台闲置状态下功耗极低,只有在执行指令时功耗会短暂上升,旗舰手机可长期后台常驻,中端设备建议在需要时开启,以节省电量。
八、相关链接
PokeClaw GitHub项目主页:https://github.com/agents-io/PokeClaw
九、总结
PokeClaw作为agents-io团队开源的端侧AI手机智能体,以Gemma 4本地大模型为推理核心、安卓无障碍服务为执行基础,构建了一套离线可用、隐私安全、零代码易用的手机自动化体系,它整合了传统本地工具的安全性与AI智能体的理解能力,既不需要用户编写脚本,也不会将数据上传至云端,有效解决了当前手机自动化工具门槛高、云端AI助手隐私风险大的行业痛点,同时凭借开源开放的架构与全机型适配能力,既可以为普通安卓用户提供便捷的智能操控体验,也能为开发者提供稳定可扩展的移动端智能体开发框架,是移动端端侧AI自动化领域极具实用价值的开源项目。
版权及免责申明:本文由@AI工具箱原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/pokeclaw.html

