让 AI 操作你的电脑 - 基于 MCP 协议的智能桌面助手
本项目正在进行全面重构,聚焦于构建一个 AI 驱动的桌面操作系统代理。
完整的产品需求文档 (PRD) 请查看:PRD.md
打造一个智能的桌面操作代理系统,让用户通过自然语言(文字/语音)与计算机交互,实现各类日常操作的自动化。
- 🎤 语音控制:通过"小七小七"唤醒词,语音控制电脑
- ⌨️ 文字输入:桌面输入界面,支持快捷键唤醒
- 🧠 智能理解:基于 AI 的自然语言理解,无需记忆命令
- 🔌 可扩展:基于 MCP (Model Context Protocol) 插件化架构
- 🗺️ 多场景支持:地图导航、天气查询、音乐播放、系统控制等
用户:"小七小七,打开地图导航,从上海七牛云到虹桥机场"
系统:自动打开地图应用并进入导航状态
用户:"小七小七,查看明天上海的天气"
系统:展示上海明天的天气信息
用户:"小七小七,播放周杰伦的晴天"
系统:打开音乐应用并播放指定歌曲
用户:"小七小七,音量调到50%"
系统:调整系统音量到50%
- 客户端:Swift + SwiftUI (macOS 原生)
- 后端服务:Go
- AI 引擎:ChatGPT / Claude / DeepSeek
- 语音识别:阿里云 / OpenAI Whisper / 本地模型
- 工具协议:MCP (Model Context Protocol)
用户交互层 (语音/文字)
↓
核心处理层 (STT → AI理解 → MCP Client)
↓
MCP工具层 (地图/天气/音乐/浏览器/系统控制)
↓
系统能力层 (macOS API / 第三方服务)
项目采用分阶段实施策略,总计 12 周完成:
- 阶段一 (4 小时):MVP - 基础导航功能
- 阶段二 (3 小时):功能扩展 - 天气、音乐、应用控制
- 阶段三 (3 小时):高级能力 - 浏览器控制、系统控制
- 阶段四 (1 天):优化与发布
详细计划请查看 PRD.md
- PRD.md - 完整的产品需求文档
- 产品概述与愿景
- 用户故事与场景
- 功能需求详解
- 技术架构设计
- 实施计划与测试策略
- 安全与隐私
- 风险与挑战
本项目正在积极开发中,欢迎参与贡献!
- Issue 讨论:GitHub Issues
- 项目主页:liangchaoboy/WALL-E
待定
让 AI 成为你的桌面助手,从此告别繁琐的电脑操作! ✨