📕 Red-Scraper

The Ultimate Xiaohongshu AI Agent & Data Miner
小红书终极自动化发布与数据挖掘智能体

🇬🇧 English Description below | 🇨🇳 包含中文双语说明

🇨🇳 一、项目简介 / Intro

Red-Scraper 是一个基于「第一性原理」开发的小红书（Xiaohongshu）全自动运营与高阶数据嗅探框架。本项目彻底抛弃了传统爬虫脆弱的 DOM 标签解析，融合了 底层网络嗅探 (Network Sniffing)、机器视觉物理点击 (Visual Coordinate Click) 与 大模型智能体 (LLM Agent) 技术，专门解决现代 Web 页面极度复杂的防爬机制（如 UI 降级隐藏、反刺透透明遮罩、骨架屏假死、高频封锁等）。

这不仅是一个爬虫，这是一台为你量身打造的**“新媒体爆款印钞机”**。

🔥 核心黑科技 (Core Highlights)

世面上的基础爬虫极易被封锁或只能获取残缺数据，Red-Scraper 采用以下降维打击方案：

🕵️‍♂️ 底层接口嗅探 (MitM Data Sniffing)：独家 0 点击秒抓技术！ 绕过前端页面混淆，直接拦截小红书浏览器底层通信网卡数据。无需点进详情页，即可瞬间截获几百条真实且无损的“点赞、收藏、评论”爆款数据。
🖱️ 物理级原生击穿 (Hardware Mouse Click)：无视前端 React 任意透明遮罩和防乱点机制。利用 Playwright 执行屏幕几何结界判定，调用真实电脑操作系统指针进行 Hover -> Click，从根源破解“隐藏筛选面板”与“按钮不可点击”风控。
🤖 免扫码防封印记 (Persistent Stealth Context)：深度挂载原生指纹伪装，彻底抹除 webdriver 特征。只需首次扫码，后续永保真实 Mac/Windows 用户登录环境，完美规避小红书大规模封号监测。
🧠 AI 矩阵大脑直连：内置大模型驱动模块（完美兼容火山引擎 / OpenAI / DeepSeek 等 API），基于抓取到的真实竞品爆款数据，全自动生成极具网感的高转化种草图文并执行全自动发布。

🛠️ 功能模块 (Modules)

本项目提供两个开箱即用的可视化 Web 客户端（基于 Streamlit）：

1. 📊 爆款数据挖掘机 (`dataapp.py`)

✅ 人机共驾模式：你在真实浏览器中滑动瀑布流，工具在后台秒速“吸取”全网爆款核心加密数据。
✅ 全维筛选突破：支持输入任意关键词，强行穿透风控执行精准排序（最多点赞/最新）、笔记类型（图文/视频）和时间筛选。
✅ 一键商业报表：自动清洗杂乱的交互字符，一键导出高度结构化的商业级 Excel（.xlsx）数据表格。

2. 🚀 全自动发布工作台 (`app.py`)

✅ 批量内容生成：批量输入话题清单，一键让大模型撰写 10-100 篇高质量待发图文。
✅ 高强度容错发布：模拟真人原生键盘敲击、上传配图、物理强点“存草稿/发布”，打破前端锁定。
✅ 矩阵排队防封发车：搭载随机防封号休眠降速机制，全自动排队发车无忧运营。

⚙️ 快速上手 (Quick Start)

1. 环境准备 / Environment Setup

请确保你的电脑上安装了 Python 3.9 或更高版本。 Please ensure you have Python 3.9+ installed.

# 克隆仓库 / Clone the repository
git clone https://github.com/qinheming/Red-Scraper.git
cd Red-Scraper

# 安装核心依赖 / Install dependencies
pip install pandas openpyxl streamlit openai playwright python-dotenv

# 安装 Playwright 自动化浏览器内核 / Install Playwright browser
playwright install chromium

🚨 免责声明 / Disclaimer
本项目仅供极客交流、Python 自动化测试与大模型 Agent 架构学习使用。
This project is ONLY for educational purposes, Python automation testing, and LLM Agent architecture research.

严禁利用本项目进行任何形式的非法牟利、恶意数据爬取或破坏目标平台（如小红书）系统稳定性的行为。
项目中包含的防风控测试和原生物理点击逻辑，旨在研究现代 Web 自动化系统的防御边界，切勿将其用于针对平台的 DDoS 或高频攻击。
任何因滥用此项目代码、违反目标平台服务条款所导致的账号限流、封禁、数据资产损失乃至法律纠纷，均由使用者自行承担，开源作者（qinheming）概不负责。
请合理控制并发与请求频率，共同维护开源生态与网络环境的健康。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.gitignore		.gitignore
README.md		README.md
agent.py		agent.py
app.py		app.py
dataapp.py		dataapp.py
dataapp_debug.py		dataapp_debug.py
dataapp_v2.py		dataapp_v2.py
xhs_state.json		xhs_state.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

📕 Red-Scraper

The Ultimate Xiaohongshu AI Agent & Data Miner
小红书终极自动化发布与数据挖掘智能体

🇨🇳 一、项目简介 / Intro

🔥 核心黑科技 (Core Highlights)

🛠️ 功能模块 (Modules)

1. 📊 爆款数据挖掘机 (`dataapp.py`)

2. 🚀 全自动发布工作台 (`app.py`)

⚙️ 快速上手 (Quick Start)

1. 环境准备 / Environment Setup

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

📕 Red-Scraper

The Ultimate Xiaohongshu AI Agent & Data Miner 小红书终极自动化发布与数据挖掘智能体

🇨🇳 一、项目简介 / Intro

🔥 核心黑科技 (Core Highlights)

🛠️ 功能模块 (Modules)

1. 📊 爆款数据挖掘机 (dataapp.py)

2. 🚀 全自动发布工作台 (app.py)

⚙️ 快速上手 (Quick Start)

1. 环境准备 / Environment Setup

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

The Ultimate Xiaohongshu AI Agent & Data Miner
小红书终极自动化发布与数据挖掘智能体

1. 📊 爆款数据挖掘机 (`dataapp.py`)

2. 🚀 全自动发布工作台 (`app.py`)

Packages