用于爬取taptap平台内游戏的相关数据,为数据分析项目提供数据支持。
一次爬取的数据量在500MB左右,耗时四天。
- ProjSetting.py 定义了项目用到的url和请求头
- run.py 定义了项目的日志规格和存储位置、利用twist异步管理框架分步执行爬虫进程
- Scheduler.py 定义了项目的定时器,用于在每周日凌晨0点执行爬虫任务,并在爬虫执行完毕后唤醒数据分析后端进行数据处理和更新。
- taptap/spiders/*.py 定义了用到的爬虫。
- taptap/pipelines.py 定义了爬取到的items的处理逻辑。在爬取完毕后执行评论的清洗和分词工作。
- 日志记录和定时器(已完成)
- 执行完毕后调用数据分析后端执行分析(未完成)