Skip to content

Puhao/cc98

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

47 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

CC98

#爬虫 设定板块的ID号,然后爬虫开始去追踪版面信息,把该板块的每个帖子里,每层楼的发帖者,发帖时间,楼层,发帖内容,改帖子信息存储到MongoDB数据库。

#热词统计 选取帖子超过30页的帖子,进行分词热词统计,然后过滤掉一些无用的热词,每个帖子的热词存储在MongoDB数据库里面。

#依赖库

  1. Beautifusoup4
    用来解析HTML页面,定位和提取HTML页面里面所需存储的信息。
    pip install beautifulsoup4
    
  2. lxml
    Beautifulsoup使用的第三方解析器
    pip install lxml
    
  3. pymongo
    MongoDB的python接口
    pip install pymongo	
    
  4. jieba
    用于分词
    pip install jieba

About

cc98爬虫

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages