🇬🇧 English Description below | 🇨🇳 包含中文双语说明
Red-Scraper 是一个基于「第一性原理」开发的小红书(Xiaohongshu)全自动运营与高阶数据嗅探框架。 本项目彻底抛弃了传统爬虫脆弱的 DOM 标签解析,融合了 底层网络嗅探 (Network Sniffing)、机器视觉物理点击 (Visual Coordinate Click) 与 大模型智能体 (LLM Agent) 技术,专门解决现代 Web 页面极度复杂的防爬机制(如 UI 降级隐藏、反刺透透明遮罩、骨架屏假死、高频封锁等)。
这不仅是一个爬虫,这是一台为你量身打造的**“新媒体爆款印钞机”**。
世面上的基础爬虫极易被封锁或只能获取残缺数据,Red-Scraper 采用以下降维打击方案:
- 🕵️♂️ 底层接口嗅探 (MitM Data Sniffing):独家 0 点击秒抓技术! 绕过前端页面混淆,直接拦截小红书浏览器底层通信网卡数据。无需点进详情页,即可瞬间截获几百条真实且无损的“点赞、收藏、评论”爆款数据。
- 🖱️ 物理级原生击穿 (Hardware Mouse Click):无视前端 React 任意透明遮罩和防乱点机制。利用 Playwright 执行屏幕几何结界判定,调用真实电脑操作系统指针进行
Hover -> Click,从根源破解“隐藏筛选面板”与“按钮不可点击”风控。 - 🤖 免扫码防封印记 (Persistent Stealth Context):深度挂载原生指纹伪装,彻底抹除
webdriver特征。只需首次扫码,后续永保真实 Mac/Windows 用户登录环境,完美规避小红书大规模封号监测。 - 🧠 AI 矩阵大脑直连:内置大模型驱动模块(完美兼容 火山引擎 / OpenAI / DeepSeek 等 API),基于抓取到的真实竞品爆款数据,全自动生成极具网感的高转化种草图文并执行全自动发布。
本项目提供两个开箱即用的可视化 Web 客户端(基于 Streamlit):
- ✅ 人机共驾模式:你在真实浏览器中滑动瀑布流,工具在后台秒速“吸取”全网爆款核心加密数据。
- ✅ 全维筛选突破:支持输入任意关键词,强行穿透风控执行精准排序(最多点赞/最新)、笔记类型(图文/视频)和时间筛选。
- ✅ 一键商业报表:自动清洗杂乱的交互字符,一键导出高度结构化的商业级 Excel(
.xlsx)数据表格。
- ✅ 批量内容生成:批量输入话题清单,一键让大模型撰写 10-100 篇高质量待发图文。
- ✅ 高强度容错发布:模拟真人原生键盘敲击、上传配图、物理强点“存草稿/发布”,打破前端锁定。
- ✅ 矩阵排队防封发车:搭载随机防封号休眠降速机制,全自动排队发车无忧运营。
请确保你的电脑上安装了 Python 3.9 或更高版本。 Please ensure you have Python 3.9+ installed.
# 克隆仓库 / Clone the repository
git clone https://github.com/qinheming/Red-Scraper.git
cd Red-Scraper
# 安装核心依赖 / Install dependencies
pip install pandas openpyxl streamlit openai playwright python-dotenv
# 安装 Playwright 自动化浏览器内核 / Install Playwright browser
playwright install chromium
🚨 免责声明 / Disclaimer
本项目仅供极客交流、Python 自动化测试与大模型 Agent 架构学习使用。
This project is ONLY for educational purposes, Python automation testing, and LLM Agent architecture research.
严禁利用本项目进行任何形式的非法牟利、恶意数据爬取或破坏目标平台(如小红书)系统稳定性的行为。
项目中包含的防风控测试和原生物理点击逻辑,旨在研究现代 Web 自动化系统的防御边界,切勿将其用于针对平台的 DDoS 或高频攻击。
任何因滥用此项目代码、违反目标平台服务条款所导致的账号限流、封禁、数据资产损失乃至法律纠纷,均由使用者自行承担,开源作者(qinheming)概不负责。
请合理控制并发与请求频率,共同维护开源生态与网络环境的健康。