Skip to content

Joy-word/AutoXiaoer

Repository files navigation

Auto小二

“哐哐哐,我来啦!”

License Android Kotlin

中文 | English

📽️视频介绍

请查看B站视频:手机里的全能智能体,Auto小二开源啦

获取最新开发资讯,请关注: 小二开发日记

📸 应用截图


📖 项目简介

Auto Xiao'er 是基于 AutoGLM For Android 深度修改开发的 Android 原生应用。借鉴一些 OpenClaw 思想,使它可以独立操作手机,成为你的赛博伙伴。

AutoGLM For Android 是基于 Open-AutoGLM 开源项目二次开发的 Android 原生应用。它将原本需要电脑 + ADB 连接的手机自动化方案,转变为一个独立运行在手机上的 App,让用户可以直接在手机上使用自然语言控制手机完成各种任务。

核心特点:

  • 🚀 纯端侧:直接在手机上运行,无需与电脑连接
  • 🎯 无缝对接各种社交软件:基于视觉操作,手机上可以安装的社交软件都可以使用
  • 🤖 双 Agent + 可选人设:规划控制(LLM Agent / 控制者)+ 屏幕执行(Phone Agent / 执行者)协同;可选独立 BrainLLM(表达者) 专门负责面向好友/用户的人设话术与人际表达,与任务规划解耦
  • 定时任务:支持定时执行任务,可设置重复模式,自动亮屏执行
  • 🔔 通知触发:监听指定 App 的通知,收到通知时自动触发预设任务
  • 📶 微信远程控制:通过微信扫码连接 ClawBot,随时随地用微信与小二连接
  • 🔒 Shizuku 权限:通过 Shizuku 获取必要的系统权限
  • 🪟 悬浮窗交互:悬浮窗实时显示任务执行进度
  • 📱 原生体验:Material Design 设计,流畅的原生 Android 体验
  • 🔌 多模型支持:兼容任何支持 OpenAI 格式的模型 API

📋 功能特性

核心功能

  • 任务执行:输入自然语言任务描述,AI 自动规划并执行
  • 屏幕理解:截图 → 视觉模型分析 → 输出操作指令
  • 多种操作:点击、滑动、长按、双击、输入文本、启动应用等
  • 任务控制:暂停、继续、取消任务执行
  • 历史记录:保存任务执行历史,支持查看详情和截图
  • 定时任务:预设任务在指定时间自动执行,支持一次性和重复任务
  • 通知触发任务:监听指定 App 通知,自动触发对应任务
  • 微信远程控制(ClawBot):通过微信扫码连接,远程发送指令并接收任务执行反馈
  • 人设分离控制者(LLM Agent)专注任务拆解与工具调用;表达者(BrainLLM)单独配置时可专门生成发往好友或用户的自然语言文案,人设与关系上下文由表达者侧承载,控制层可保持「不带角色口吻」的调度逻辑
  • 表达者话术(BrainLLM):启用后,需对外发送的文字可先经 request_brain 由表达者按人设与关系档案润色;可指向与控制模型不同的服务商与模型,便于选用更擅长对话与角色扮演的纯文本模型

用户界面

  • 主界面:任务输入、状态显示、快捷操作
  • 悬浮窗:实时显示执行步骤、思考过程、操作结果
  • 设置页面:模型配置、Agent 参数、多配置管理
  • 历史页面:任务历史列表、详情查看、截图标注

高级功能

  • 多模型配置:支持保存多个模型配置,快速切换
  • 自定义 Prompt:支持自定义系统提示词
  • 快捷磁贴:通知栏快捷磁贴,快速打开悬浮窗
  • 日志导出:支持导出调试日志,自动脱敏敏感信息

📱 系统要求

  • Android 版本:Android 7.0 (API 24) 及以上
  • 必需应用Shizuku (用于获取系统权限)
  • 网络连接:需要连接到模型 API 服务(支持任何 OpenAI 格式兼容的视觉模型)
  • 权限要求
    • 悬浮窗权限 (用于显示悬浮窗)
    • 网络权限 (用于 API 通信)
    • 后台运行权限(用于后台执行任务)
    • Shizuku 权限 (用于执行系统操作)
    • 通知监听权限 (可选,用于通知触发任务功能)

🚀 快速开始 (同 AutoGLM-For-Android)

第一步:安装并激活 Shizuku

Shizuku 是本应用的核心依赖,用于执行屏幕点击、滑动等操作。

下载安装

激活方式(三选一)

方式 适用场景 持久性
无线调试 推荐,无需电脑 重启后需重新配对
ADB 连接 有电脑时使用 重启后需重新执行
Root 授权 已 Root 设备 永久有效

无线调试激活步骤(推荐)

  1. 连接任意 WIFI
  2. 打开手机「设置」→「开发者选项」
  3. 开启「无线调试」
  4. 点击「使用配对码配对设备」
  5. 等待 Shizuku 通知弹出,在通知内输入配对码完成配对
  6. 打开 Shizuku 点击「启动」,等待启动完毕
  7. 看到 Shizuku 显示「正在运行」即为成功

💡 提示:如果找不到开发者选项,请在「关于手机」中连续点击「版本号」多次开启。

第二步:安装 Auto小二

  1. Releases 页面 下载最新 APK
  2. 安装 APK 并打开应用

第三步:授予必要权限

打开应用后,需要依次授予以下权限:

权限 用途 操作
Shizuku 权限 执行屏幕操作 点击「授权」→ 始终允许
悬浮窗权限 显示任务执行窗口 点击「授权」→ 开启开关
键盘权限 输入文本内容 点击「启用键盘」→ 启用 小二 Keyboard

💡 提示:如果悬浮窗无法授权,进入应用详情页,点击「右上角菜单」→ 允许受限制的设置,再次尝试授权悬浮窗。

第四步:配置模型服务

进入「设置」页面,配置 AI 模型 API。

本应用采用 双模型双层 Agent 架构,并可选叠加独立 表达者(BrainLLM)

角色 责任 推荐模型
LLM Agent(控制者) 接收用户任务,通过 ReAct 循环进行高层规划,将复杂任务拆分为子任务 纯文本大语言模型(如 GLM-4.7、DeepSeek)
Phone Agent(执行者) 等待子任务,截图分析屏幕并执行具体操作 具备图片理解能力的视觉模型(如 autoglm-phone)
BrainLLM(表达者 · 可选) 负责人设表达、人际关系与面向人类的发话内容;启用后对外发送的文案可由表达者单独生成 纯文本大语言模型(可与控制者相同或不同服务商,宜选擅长角色与对话的模型,如 doubao-seed-2.0)

Phone Agent(执行者)与 LLM Agent(控制者)的 API 始终独立配置;表达者为第三套独立端点,默认关闭,在设置中开启后即参与话术生成。

Phone Agent 配置(视觉模型)

推荐配置(智谱 BigModel) 🎉 目前 autoglm-phone 模型限时免费!

配置项
Base URL https://open.bigmodel.cn/api/paas/v4
Model autoglm-phone
API Key 智谱 AI 开放平台 获取

备选配置(ModelScope)

配置项
Base URL https://api-inference.modelscope.cn/v1
Model ZhipuAI/AutoGLM-Phone-9B
API Key ModelScope 获取

配置完成后,点击「测试连接」验证配置是否正确。

LLM Agent 配置(控制者 · 规划大语言模型)

进入设置 → LLM Agent 配置,配置用于控制者的纯文本大语言模型:

配置项 说明
Base URL OpenAI 兼容的 API 地址
Model glm-4-plusdeepseek-chat 等纯文本模型
API Key 对应服务的 API Key
最大规划步数 LLM 循环的最大迭代轮次,默认 20
自定义系统提示词 可重写内置的控制者提示词,优化特定场景的规划行为

💡 LLM Agent 配置严格独立于 Phone Agent 配置,可以使用任意 OpenAI 格式兼容的纯文本模型。

BrainLLM(表达者)配置

进入设置 → 配置表达者 (BrainLLM)(或「人设」相关入口中的表达者开关),用于与人设、人际关系档案配套的话术模型。与 LLM Agent(控制者) 完全解耦,可指向不同 Base URL / 模型 / Key。

配置项 说明
启用表达者 关闭时,面向人类的文案由控制者模型直接生成;开启后控制者需通过 request_brain 获取表达者输出再填入发送类 action
Base URL OpenAI 兼容的 API 根地址(/chat/completions
Model 纯文本模型名(如 glm-4-plus 等)
API Key 对应服务的密钥(与控制者、Phone Agent 可各不相同)
最大 Token / 温度 控制表达者单次生成上限与采样随机性
自定义 System Prompt 非空时覆盖内置表达者提示词,用于细化人设与说话规则

💡 小二人设、人际关系与行为准则在「管理人设」中维护;表达者侧提示词会与之配合,实现控制与话术分层

使用其他第三方模型

只要模型服务满足以下条件,即可在本应用中使用:

  1. API 格式兼容:提供 OpenAI 兼容的 /chat/completions 端点
  2. 多模态支持:支持 image_url 格式的图片输入
  3. 图片理解能力:能够分析屏幕截图并理解 UI 元素

以上 2、3 条仅针对 Phone Agent(执行者 · 视觉模型)LLM Agent(控制者)BrainLLM(表达者) 仅需满足第 1 条的标准文本对话能力即可,无需多模态。

⚠️ 注意:非 AutoGLM 模型可能需要调整系统提示词才能正确输出操作指令格式。可在设置 → 高级设置中自定义系统提示词。

第五步:开始使用

  1. 在主界面输入任务描述,如:"打开微信,给文件传输助手发送消息:测试"
  2. 点击「开始任务」按钮
  3. 悬浮窗会自动弹出,显示执行进度
  4. 观察 AI 的思考过程和执行操作

⚠️ 安全与隐私风险提示

在使用本应用前,请务必了解以下风险:

安全限制基于提示词

本应用的安全行为限制(如拒绝执行危险操作)依赖于 AI 模型的系统提示词实现,并非底层硬性约束。这意味着:

  • 提示词可能被精心构造的任务描述绕过(即"提示词注入"攻击)
  • 不同模型对同一提示词的遵从程度存在差异
  • 请勿将本应用用于涉及敏感账户、资金操作、隐私数据等高风险场景

模型 API 数据安全

  • 本应用所有 AI 功能均通过用户自行配置的第三方模型 API 实现
  • 应用本身不收集、不上传、不存储任何用户数据或截图内容
  • 任务执行过程中的截图会通过你配置的 API 发送至对应的模型服务商
  • 请确保你信任所使用的模型服务商,并仔细阅读其隐私政策

使用建议

  • 🔒 敏感页面(支付、密码输入框等)会触发系统保护,截图显示为黑屏
  • 👀 建议在执行涉及敏感任务时保持对屏幕操作的观察,随时准备手动干预
  • 🔑 不要在任务描述中包含密码、验证码等敏感信息

使用教程与常见问题

跳转使用教程与常见问题


📞 联系方式

  • 赞赏作者

⭐ Star History

Star History Chart

📄 开源协议

本项目基于 MIT License 开源。

🙏 致谢


如果这个项目对你有帮助,请给一个 ⭐ Star!您的支持是项目迭代的最大动力!

About

一个生活在手机里的智能体伙伴

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages