Skip to content

qinheming/Red-Scraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

📕 Red-Scraper

The Ultimate Xiaohongshu AI Agent & Data Miner
小红书终极自动化发布与数据挖掘智能体

Python Playwright Streamlit License Author

🇬🇧 English Description below | 🇨🇳 包含中文双语说明


🇨🇳 一、项目简介 / Intro

Red-Scraper 是一个基于「第一性原理」开发的小红书(Xiaohongshu)全自动运营与高阶数据嗅探框架。 本项目彻底抛弃了传统爬虫脆弱的 DOM 标签解析,融合了 底层网络嗅探 (Network Sniffing)机器视觉物理点击 (Visual Coordinate Click)大模型智能体 (LLM Agent) 技术,专门解决现代 Web 页面极度复杂的防爬机制(如 UI 降级隐藏、反刺透透明遮罩、骨架屏假死、高频封锁等)。

这不仅是一个爬虫,这是一台为你量身打造的**“新媒体爆款印钞机”**。


🔥 核心黑科技 (Core Highlights)

世面上的基础爬虫极易被封锁或只能获取残缺数据,Red-Scraper 采用以下降维打击方案:

  • 🕵️‍♂️ 底层接口嗅探 (MitM Data Sniffing)独家 0 点击秒抓技术! 绕过前端页面混淆,直接拦截小红书浏览器底层通信网卡数据。无需点进详情页,即可瞬间截获几百条真实且无损的“点赞、收藏、评论”爆款数据。
  • 🖱️ 物理级原生击穿 (Hardware Mouse Click):无视前端 React 任意透明遮罩和防乱点机制。利用 Playwright 执行屏幕几何结界判定,调用真实电脑操作系统指针进行 Hover -> Click,从根源破解“隐藏筛选面板”与“按钮不可点击”风控。
  • 🤖 免扫码防封印记 (Persistent Stealth Context):深度挂载原生指纹伪装,彻底抹除 webdriver 特征。只需首次扫码,后续永保真实 Mac/Windows 用户登录环境,完美规避小红书大规模封号监测。
  • 🧠 AI 矩阵大脑直连:内置大模型驱动模块(完美兼容 火山引擎 / OpenAI / DeepSeek 等 API),基于抓取到的真实竞品爆款数据,全自动生成极具网感的高转化种草图文并执行全自动发布。

🛠️ 功能模块 (Modules)

本项目提供两个开箱即用的可视化 Web 客户端(基于 Streamlit):

1. 📊 爆款数据挖掘机 (dataapp.py)

  • 人机共驾模式:你在真实浏览器中滑动瀑布流,工具在后台秒速“吸取”全网爆款核心加密数据。
  • 全维筛选突破:支持输入任意关键词,强行穿透风控执行精准排序(最多点赞/最新)、笔记类型(图文/视频)和时间筛选。
  • 一键商业报表:自动清洗杂乱的交互字符,一键导出高度结构化的商业级 Excel(.xlsx)数据表格。

2. 🚀 全自动发布工作台 (app.py)

  • 批量内容生成:批量输入话题清单,一键让大模型撰写 10-100 篇高质量待发图文。
  • 高强度容错发布:模拟真人原生键盘敲击、上传配图、物理强点“存草稿/发布”,打破前端锁定。
  • 矩阵排队防封发车:搭载随机防封号休眠降速机制,全自动排队发车无忧运营。

⚙️ 快速上手 (Quick Start)

1. 环境准备 / Environment Setup

请确保你的电脑上安装了 Python 3.9 或更高版本。 Please ensure you have Python 3.9+ installed.

# 克隆仓库 / Clone the repository
git clone https://github.com/qinheming/Red-Scraper.git
cd Red-Scraper

# 安装核心依赖 / Install dependencies
pip install pandas openpyxl streamlit openai playwright python-dotenv

# 安装 Playwright 自动化浏览器内核 / Install Playwright browser
playwright install chromium

🚨 免责声明 / Disclaimer
本项目仅供极客交流、Python 自动化测试与大模型 Agent 架构学习使用。
This project is ONLY for educational purposes, Python automation testing, and LLM Agent architecture research.

严禁利用本项目进行任何形式的非法牟利、恶意数据爬取或破坏目标平台(如小红书)系统稳定性的行为。
项目中包含的防风控测试和原生物理点击逻辑,旨在研究现代 Web 自动化系统的防御边界,切勿将其用于针对平台的 DDoS 或高频攻击。
任何因滥用此项目代码、违反目标平台服务条款所导致的账号限流、封禁、数据资产损失乃至法律纠纷,均由使用者自行承担,开源作者(qinheming)概不负责。
请合理控制并发与请求频率,共同维护开源生态与网络环境的健康。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages