PokeClaw:端侧AI手机智能体,本地隐私优先的安卓自动化控制工具

原创 发布日期:
65

一、PokeClaw是什么

PokeClaw(又名PocketClaw)是由agents-io团队开源发布的Android端侧AI手机智能体,属于面向移动设备的轻量化AI自动化框架,项目采用Kotlin语言开发,以Apache 2.0开源协议授权,兼容Android 9及以上版本系统。

与传统手机自动化工具、云端AI助手不同,PokeClaw的核心定位是本地优先、隐私至上、零代码易用的手机智能控制工具,它将谷歌Gemma 4 E2B轻量级大模型完整部署在手机本地,不依赖云端API、不要求联网、不需要付费订阅,通过安卓无障碍服务构建“屏幕感知—语义理解—决策执行—结果反馈”的完整闭环,让用户仅通过自然语言指令,就能实现对手机各类应用与系统功能的自动化操控。

PokeClaw并非简单的语音助手或固定流程自动化工具,而是一套可独立思考、自主决策的移动智能体引擎。它能够读取当前屏幕界面信息,理解用户的模糊指令与上下文意图,自主选择点击、输入、跳转、发送、查询等操作,完成单步或多步骤链式任务,同时全程保证用户数据不离开设备,从根源上解决手机AI操控场景中的隐私泄露问题。

项目面向两类核心人群:一是希望通过AI简化手机操作、提升使用效率的普通安卓用户;二是需要基于端侧AI能力二次开发手机智能体、自动化插件的开发者。PokeClaw既提供开箱即用的APK安装包,也开放完整源码,支持自定义模型、工具集与交互逻辑,具备极强的扩展性与适配能力。

二、PokeClaw功能特色

  1. 纯本地离线运行,隐私安全零泄露

    • 内置Gemma 4 E2B端侧大模型,所有推理计算均在手机本地完成,无需联网、无需API密钥、无任何订阅付费项。

    • 屏幕内容、操作指令、聊天记录等敏感数据仅存储在设备本地,不向任何云端服务器上传、中转或备份。

    • 离线状态下可正常执行绝大多数自动化任务,不受网络环境限制。

  2. 自然语言指令操控,零代码上手使用

    • 支持文字与语音两种输入方式,用户使用日常口语即可下达指令,无需学习编程语法或配置规则。

    • 具备上下文理解能力,可识别省略句、指代性描述,精准执行多步骤复杂任务。

    • 无需手动编写脚本、设置触发条件,降低手机自动化的使用门槛。

  3. 智能消息监控与场景化自动回复

    • 支持WhatsApp等主流社交应用的消息监控,可自定义联系人白名单。

    • 基于对话上下文智能生成回复内容,适配家人沟通、工作通知、日常问候等不同场景。

    • 可自由开启或关闭监控功能,灵活控制自动回复范围。

  4. 屏幕视觉理解与全流程自主执行

    • 通过无障碍服务解析手机UI界面结构,将控件信息转化为模型可理解的文本内容。

    • 自主完成点击、输入、滑动、返回、打开应用、发送内容等模拟人工操作。

    • 实现感知、决策、执行、反馈的完整闭环,无需人工干预即可完成任务。

  5. 多档位性能适配,覆盖全机型梯队

    • 针对旗舰芯片、中端设备、入门级手机分别优化推理速度与资源占用。

    • 支持本地模型与云端模型自由切换,复杂任务可灵活调用更强算力。

    • 安装包轻量化,模型文件内置,无需额外下载资源包。

  6. 开源可扩展,支持二次开发定制

    • 完整源码开放,开发者可修改模型配置、新增操作工具、优化交互逻辑。

    • 提供标准化执行接口,便于集成到其他安卓应用或智能体项目中。

    • 无商用限制,符合Apache 2.0协议即可自由使用与分发。

三、PokeClaw技术细节

1. 核心技术栈

  • 开发语言:Kotlin(Android原生开发,兼容主流安卓系统版本)

  • 端侧推理引擎:LiteRT-LM轻量级推理框架,适配移动端硬件环境

  • 核心大模型:Gemma 4 E2B(谷歌开源轻量大模型,专为端侧部署优化)

  • 系统交互能力:Android AccessibilityService无障碍服务

  • 构建工具:Gradle Kotlin DSL,支持标准化编译与打包

2. 整体执行流程

PokeClaw的运行逻辑遵循标准化智能体执行链路,具体流程如下:

屏幕UI结构捕获 → 界面信息文本化 → 本地大模型推理解析 → 生成操作指令 → 无障碍服务执行动作 → 执行结果反馈与校验
  1. 感知阶段:无障碍服务读取当前屏幕的UI层级、控件文本、位置、类型等信息,完成界面数字化。

  2. 理解阶段:将结构化界面信息与用户指令拼接,输入Gemma 4模型进行意图识别与任务拆解。

  3. 决策阶段:模型输出可执行的标准化操作指令,如点击、输入文字、打开应用、发送消息等。

  4. 执行阶段:无障碍服务模拟人手操作,精准执行模型下达的指令。

  5. 反馈阶段:捕获操作后的界面变化,判断任务是否完成,未完成则进入下一轮循环。

3. 性能适配表现

设备硬件类型 模型首次启动时间 常规推理响应 运行内存占用
旗舰芯片(Tensor G3/G4、骁龙8 Gen2/3、天玑9200/9300) 1–3秒 实时响应 适中
中端安卓设备(骁龙7系列、天玑8000系列) 10–20秒 流畅执行 可控
入门级CPU设备 40–50秒 低速稳定运行 略高

4. 权限与安全设计

  • 仅申请无障碍服务权限通知读取权限,无通讯录、定位、存储等多余权限。

  • 模型文件内置在安装包中,安装后无需联网下载额外资源。

  • 操作日志本地存储,支持一键清除,不产生云端痕迹。

  • 无后台数据上传逻辑,从代码层面杜绝隐私泄露可能。

PokeClaw:端侧AI手机智能体,本地隐私优先的安卓自动化控制工具

四、PokeClaw应用场景

  1. 日常社交消息自动化
    针对微信、WhatsApp等社交应用,自动监控重要联系人消息,在忙碌时智能回复基础问题;批量发送节日祝福、工作通知,减少重复手动操作;自动整理聊天关键信息并保存至备忘录,提升信息处理效率。

  2. 办公场景效率提升
    语音指令打开办公文档、编辑表格、发送邮件;自动设置日程提醒、创建待办事项;跨应用提取信息并汇总,快速生成工作草稿;解放双手完成高频重复操作,提高办公效率。

  3. 生活服务便捷操作
    语音查询天气、快递、公交地铁信息,自动播报结果;打开外卖、购票、出行软件,辅助完成筛选与下单;定时执行闹钟设置、音量调节、电量低提醒等系统操作,简化日常使用步骤。

  4. 特殊人群易用化辅助
    老年人可通过简单语音指令操作复杂应用,降低学习成本;残障用户借助语音交互实现全手机操控,提升设备使用自主性;驾驶场景中语音控制手机,减少手动操作,提高出行安全。

  5. 信息采集与整理
    自动搜索指定内容并汇总文本,保存至笔记应用;提取屏幕文字、完成翻译与整理;监控关注内容更新,及时推送提醒,实现轻量化信息助手功能。

五、PokeClaw使用方法

1. 环境要求

  • 操作系统:Android 9.0及以上版本

  • 存储空间:预留2GB以上空间用于模型解压与运行

  • 权限设置:允许安装未知来源应用、开启无障碍服务

  • 建议配置:旗舰处理器手机可获得最佳流畅体验

2. 安装步骤

  1. 前往GitHub仓库Releases页面下载最新版APK安装包。

  2. 在手机设置中开启“允许来自未知来源的应用”权限。

  3. 点击APK文件完成安装,打开应用后按照引导授予无障碍服务权限。

  4. 首次启动自动解压内置模型,等待加载完成即可进入主界面。

  5. 选择文字或语音输入方式,开始使用自然语言操控手机。

3. 常用指令示例

# 社交消息指令
给小张发送WhatsApp消息:下午三点准时开会
# 应用操作指令
打开抖音搜索端侧AI手机智能体
# 系统设置指令
设置明天早上7点的闹钟
# 信息查询指令
查询今天北京的天气并播报
# 自动回复指令
开启家人消息自动回复

4. 高级配置说明

  • 模型切换:在设置页面选择本地Gemma 4模型或手动配置云端模型。

  • 监控设置:自定义社交应用监控名单,仅对指定联系人开启自动回复。

  • 性能调节:根据设备配置调整推理速度优先级,平衡流畅度与耗电量。

  • 隐私设置:开启/关闭操作日志,一键清除本地记录,保护使用痕迹。

六、PokeClaw竞品对比

本次选取行业内具有代表性的TaskerAutoGLM-Phone豆包手机助手三款产品,从核心维度与PokeClaw展开对比:

对比维度 PokeClaw Tasker AutoGLM-Phone 豆包手机助手
部署模式 纯端侧本地运行 本地脚本执行 本地+云端混合 纯云端依赖
使用门槛 自然语言指令,零代码 需编写脚本,学习成本高 基础指令简易,复杂需开发 自然语言,需账号绑定
隐私安全性 数据不上云,全程本地 本地存储,无云端风险 部分数据上传云端 数据上传至厂商服务器
上下文理解 强,支持多轮对话推理 无语义理解,仅执行固定流程 中等,支持基础上下文 强,依赖云端算力
界面适配能力 自适应UI变化,鲁棒性强 依赖固定控件,易失效 自适应能力较好 系统级适配,部分应用受限
使用成本 开源免费,无任何付费项 付费软件,一次性购买 开源免费,云端需付费 基础免费,高级功能付费
离线可用能力 全功能离线支持 完全离线 基础功能离线 无网无法使用

从对比结果可以看出,PokeClaw是目前少数同时具备纯本地隐私保护、零代码自然语言操控、强AI语义理解的手机智能体工具。它既解决了Tasker学习成本过高的问题,又避免了云端AI助手的数据上传风险,同时相比AutoGLM-Phone拥有更轻量化的部署方式与更友好的普通用户体验,在移动端AI自动化领域具备独特优势。

七、常见问题解答

PokeClaw支持的最低安卓版本是多少?

PokeClaw最低支持Android 9.0(API Level 28),推荐在Android 11及以上版本使用,无障碍服务兼容性更稳定。

首次启动为什么加载速度很慢?

首次启动需要解压内置的Gemma 4模型文件,入门级CPU设备解压时间较长,属于正常现象,后续启动会直接加载已解压模型,速度会明显加快。

使用PokeClaw会上传我的个人数据吗?

不会。PokeClaw所有推理与操作均在本地完成,应用没有联网上传数据的逻辑,不会收集、上传或泄露任何个人信息、屏幕内容与操作记录。

没有网络连接时可以正常使用吗?

可以。PokeClaw核心功能完全基于本地模型运行,断网状态下依然可以执行消息回复、应用操控、系统设置等所有主要功能,仅手动切换云端模型时需要网络。

哪些手机运行PokeClaw体验最好?

搭载Google Tensor G3/G4、骁龙8 Gen2/Gen3、天玑9200/9300等旗舰芯片的安卓设备,可实现模型秒级启动与指令实时响应,使用体验最佳。

为什么部分应用无法实现自动操作?

部分应用对无障碍服务做了限制,或界面UI结构动态变化频繁,会导致模型识别与执行成功率下降,可尝试更新应用版本或在设置中调整识别相关参数。

能否自定义专属的自动化任务?

普通用户可通过自然语言指令自定义任务,开发者可通过修改项目源码添加自定义工具、操作逻辑与模型配置,实现高度个性化的自动化流程。

PokeClaw后台运行耗电严重吗?

后台闲置状态下功耗极低,只有在执行指令时功耗会短暂上升,旗舰手机可长期后台常驻,中端设备建议在需要时开启,以节省电量。

八、相关链接

九、总结

PokeClaw作为agents-io团队开源的端侧AI手机智能体,以Gemma 4本地大模型为推理核心、安卓无障碍服务为执行基础,构建了一套离线可用、隐私安全、零代码易用的手机自动化体系,它整合了传统本地工具的安全性与AI智能体的理解能力,既不需要用户编写脚本,也不会将数据上传至云端,有效解决了当前手机自动化工具门槛高、云端AI助手隐私风险大的行业痛点,同时凭借开源开放的架构与全机型适配能力,既可以为普通安卓用户提供便捷的智能操控体验,也能为开发者提供稳定可扩展的移动端智能体开发框架,是移动端端侧AI自动化领域极具实用价值的开源项目。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新