请查看B站视频:手机里的全能智能体,Auto小二开源啦
获取最新开发资讯,请关注: 小二开发日记
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Auto Xiao'er 是基于 AutoGLM For Android 深度修改开发的 Android 原生应用。借鉴一些 OpenClaw 思想,使它可以独立操作手机,成为你的赛博伙伴。
AutoGLM For Android 是基于 Open-AutoGLM 开源项目二次开发的 Android 原生应用。它将原本需要电脑 + ADB 连接的手机自动化方案,转变为一个独立运行在手机上的 App,让用户可以直接在手机上使用自然语言控制手机完成各种任务。
核心特点:
- 🚀 纯端侧:直接在手机上运行,无需与电脑连接
- 🎯 无缝对接各种社交软件:基于视觉操作,手机上可以安装的社交软件都可以使用
- 🤖 双 Agent + 可选人设:规划控制(LLM Agent / 控制者)+ 屏幕执行(Phone Agent / 执行者)协同;可选独立 BrainLLM(表达者) 专门负责面向好友/用户的人设话术与人际表达,与任务规划解耦
- ⏰ 定时任务:支持定时执行任务,可设置重复模式,自动亮屏执行
- 🔔 通知触发:监听指定 App 的通知,收到通知时自动触发预设任务
- 📶 微信远程控制:通过微信扫码连接 ClawBot,随时随地用微信与小二连接
- 🔒 Shizuku 权限:通过 Shizuku 获取必要的系统权限
- 🪟 悬浮窗交互:悬浮窗实时显示任务执行进度
- 📱 原生体验:Material Design 设计,流畅的原生 Android 体验
- 🔌 多模型支持:兼容任何支持 OpenAI 格式的模型 API
- ✅ 任务执行:输入自然语言任务描述,AI 自动规划并执行
- ✅ 屏幕理解:截图 → 视觉模型分析 → 输出操作指令
- ✅ 多种操作:点击、滑动、长按、双击、输入文本、启动应用等
- ✅ 任务控制:暂停、继续、取消任务执行
- ✅ 历史记录:保存任务执行历史,支持查看详情和截图
- ✅ 定时任务:预设任务在指定时间自动执行,支持一次性和重复任务
- ✅ 通知触发任务:监听指定 App 通知,自动触发对应任务
- ✅ 微信远程控制(ClawBot):通过微信扫码连接,远程发送指令并接收任务执行反馈
- ✅ 人设分离:控制者(LLM Agent)专注任务拆解与工具调用;表达者(BrainLLM)单独配置时可专门生成发往好友或用户的自然语言文案,人设与关系上下文由表达者侧承载,控制层可保持「不带角色口吻」的调度逻辑
- ✅ 表达者话术(BrainLLM):启用后,需对外发送的文字可先经
request_brain由表达者按人设与关系档案润色;可指向与控制模型不同的服务商与模型,便于选用更擅长对话与角色扮演的纯文本模型
- ✅ 主界面:任务输入、状态显示、快捷操作
- ✅ 悬浮窗:实时显示执行步骤、思考过程、操作结果
- ✅ 设置页面:模型配置、Agent 参数、多配置管理
- ✅ 历史页面:任务历史列表、详情查看、截图标注
- ✅ 多模型配置:支持保存多个模型配置,快速切换
- ✅ 自定义 Prompt:支持自定义系统提示词
- ✅ 快捷磁贴:通知栏快捷磁贴,快速打开悬浮窗
- ✅ 日志导出:支持导出调试日志,自动脱敏敏感信息
- Android 版本:Android 7.0 (API 24) 及以上
- 必需应用:Shizuku (用于获取系统权限)
- 网络连接:需要连接到模型 API 服务(支持任何 OpenAI 格式兼容的视觉模型)
- 权限要求:
- 悬浮窗权限 (用于显示悬浮窗)
- 网络权限 (用于 API 通信)
- 后台运行权限(用于后台执行任务)
- Shizuku 权限 (用于执行系统操作)
- 通知监听权限 (可选,用于通知触发任务功能)
Shizuku 是本应用的核心依赖,用于执行屏幕点击、滑动等操作。
下载安装
激活方式(三选一)
| 方式 | 适用场景 | 持久性 |
|---|---|---|
| 无线调试 | 推荐,无需电脑 | 重启后需重新配对 |
| ADB 连接 | 有电脑时使用 | 重启后需重新执行 |
| Root 授权 | 已 Root 设备 | 永久有效 |
无线调试激活步骤(推荐)
- 连接任意 WIFI
- 打开手机「设置」→「开发者选项」
- 开启「无线调试」
- 点击「使用配对码配对设备」
- 等待 Shizuku 通知弹出,在通知内输入配对码完成配对
- 打开 Shizuku 点击「启动」,等待启动完毕
- 看到 Shizuku 显示「正在运行」即为成功
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
💡 提示:如果找不到开发者选项,请在「关于手机」中连续点击「版本号」多次开启。
- 从 Releases 页面 下载最新 APK
- 安装 APK 并打开应用
打开应用后,需要依次授予以下权限:
| 权限 | 用途 | 操作 |
|---|---|---|
| Shizuku 权限 | 执行屏幕操作 | 点击「授权」→ 始终允许 |
| 悬浮窗权限 | 显示任务执行窗口 | 点击「授权」→ 开启开关 |
| 键盘权限 | 输入文本内容 | 点击「启用键盘」→ 启用 小二 Keyboard |
![]() |
![]() |
![]() |
💡 提示:如果悬浮窗无法授权,进入应用详情页,点击「右上角菜单」→ 允许受限制的设置,再次尝试授权悬浮窗。
进入「设置」页面,配置 AI 模型 API。
本应用采用 双模型双层 Agent 架构,并可选叠加独立 表达者(BrainLLM):
| 角色 | 责任 | 推荐模型 |
|---|---|---|
| LLM Agent(控制者) | 接收用户任务,通过 ReAct 循环进行高层规划,将复杂任务拆分为子任务 | 纯文本大语言模型(如 GLM-4.7、DeepSeek) |
| Phone Agent(执行者) | 等待子任务,截图分析屏幕并执行具体操作 | 具备图片理解能力的视觉模型(如 autoglm-phone) |
| BrainLLM(表达者 · 可选) | 负责人设表达、人际关系与面向人类的发话内容;启用后对外发送的文案可由表达者单独生成 | 纯文本大语言模型(可与控制者相同或不同服务商,宜选擅长角色与对话的模型,如 doubao-seed-2.0) |
Phone Agent(执行者)与 LLM Agent(控制者)的 API 始终独立配置;表达者为第三套独立端点,默认关闭,在设置中开启后即参与话术生成。
Phone Agent 配置(视觉模型)
推荐配置(智谱 BigModel) 🎉 目前 autoglm-phone 模型限时免费!
| 配置项 | 值 |
|---|---|
| Base URL | https://open.bigmodel.cn/api/paas/v4 |
| Model | autoglm-phone |
| API Key | 在 智谱 AI 开放平台 获取 |
备选配置(ModelScope)
| 配置项 | 值 |
|---|---|
| Base URL | https://api-inference.modelscope.cn/v1 |
| Model | ZhipuAI/AutoGLM-Phone-9B |
| API Key | 在 ModelScope 获取 |
配置完成后,点击「测试连接」验证配置是否正确。
LLM Agent 配置(控制者 · 规划大语言模型)
进入设置 → LLM Agent 配置,配置用于控制者的纯文本大语言模型:
| 配置项 | 说明 |
|---|---|
| Base URL | OpenAI 兼容的 API 地址 |
| Model | 如 glm-4-plus、deepseek-chat 等纯文本模型 |
| API Key | 对应服务的 API Key |
| 最大规划步数 | LLM 循环的最大迭代轮次,默认 20 |
| 自定义系统提示词 | 可重写内置的控制者提示词,优化特定场景的规划行为 |
💡 LLM Agent 配置严格独立于 Phone Agent 配置,可以使用任意 OpenAI 格式兼容的纯文本模型。
BrainLLM(表达者)配置
进入设置 → 配置表达者 (BrainLLM)(或「人设」相关入口中的表达者开关),用于与人设、人际关系档案配套的话术模型。与 LLM Agent(控制者) 完全解耦,可指向不同 Base URL / 模型 / Key。
| 配置项 | 说明 |
|---|---|
| 启用表达者 | 关闭时,面向人类的文案由控制者模型直接生成;开启后控制者需通过 request_brain 获取表达者输出再填入发送类 action |
| Base URL | OpenAI 兼容的 API 根地址(/chat/completions) |
| Model | 纯文本模型名(如 glm-4-plus 等) |
| API Key | 对应服务的密钥(与控制者、Phone Agent 可各不相同) |
| 最大 Token / 温度 | 控制表达者单次生成上限与采样随机性 |
| 自定义 System Prompt | 非空时覆盖内置表达者提示词,用于细化人设与说话规则 |
💡 小二人设、人际关系与行为准则在「管理人设」中维护;表达者侧提示词会与之配合,实现控制与话术分层。
![]() |
使用其他第三方模型:
只要模型服务满足以下条件,即可在本应用中使用:
- API 格式兼容:提供 OpenAI 兼容的
/chat/completions端点 - 多模态支持:支持
image_url格式的图片输入 - 图片理解能力:能够分析屏幕截图并理解 UI 元素
以上 2、3 条仅针对 Phone Agent(执行者 · 视觉模型)。LLM Agent(控制者) 与 BrainLLM(表达者) 仅需满足第 1 条的标准文本对话能力即可,无需多模态。
⚠️ 注意:非 AutoGLM 模型可能需要调整系统提示词才能正确输出操作指令格式。可在设置 → 高级设置中自定义系统提示词。
- 在主界面输入任务描述,如:"打开微信,给文件传输助手发送消息:测试"
- 点击「开始任务」按钮
- 悬浮窗会自动弹出,显示执行进度
- 观察 AI 的思考过程和执行操作
在使用本应用前,请务必了解以下风险:
本应用的安全行为限制(如拒绝执行危险操作)依赖于 AI 模型的系统提示词实现,并非底层硬性约束。这意味着:
- 提示词可能被精心构造的任务描述绕过(即"提示词注入"攻击)
- 不同模型对同一提示词的遵从程度存在差异
- 请勿将本应用用于涉及敏感账户、资金操作、隐私数据等高风险场景
- 本应用所有 AI 功能均通过用户自行配置的第三方模型 API 实现
- 应用本身不收集、不上传、不存储任何用户数据或截图内容
- 任务执行过程中的截图会通过你配置的 API 发送至对应的模型服务商
- 请确保你信任所使用的模型服务商,并仔细阅读其隐私政策
- 🔒 敏感页面(支付、密码输入框等)会触发系统保护,截图显示为黑屏
- 👀 建议在执行涉及敏感任务时保持对屏幕操作的观察,随时准备手动干预
- 🔑 不要在任务描述中包含密码、验证码等敏感信息
-
Email: wxrachel@outlook.com
-
交流群
![]() |
![]() |
- 赞赏作者
![]() |
本项目基于 MIT License 开源。
- AutoGLM-For-Android Luokavin 大佬开源项目
- Open-AutoGLM - 原始开源项目
- Shizuku - 系统权限框架
- 智谱 AI - AutoGLM 模型提供方
如果这个项目对你有帮助,请给一个 ⭐ Star!您的支持是项目迭代的最大动力!



















