web_scraping

Collection of scrapper pipelines build for different purposes

Quick Start

Quick start via docker

# Run via docker 
$ cd ~ && git clone https://github.com/yennanliu/web_scraping
$ cd ~ && cd web_scraping &&  docker-compose -f  docker-compose.yml up

visit the services via
- flower UI : http://localhost:5555/
- Run "add" task : http://localhost:5001/add/1/2
- Run "web scrape" task : http://localhost:5001/scrap_task
- Run "indeed scrape" task : http://localhost:5001/indeed_scrap_task

Quick start manually

# Run manually 
# dev

File structure

├── Dockerfile
├── README.md
├── api.                  : Celery api (broker, job accepter(flask))
│   ├── Dockerfile        : Dockerfile build celery api 
│   ├── app.py            : Flask server accept job request(api)
│   ├── requirements.txt
│   └── worker.py         : Celery broker, celery backend(redis)
├── celery-queue          : Run main web scrapping jobs (via celery)
│   ├── Dockerfile        : Dockerfile build celery-queue
│   ├── IndeedScrapper    : Scrapper scrape Indeed.com 
│   ├── requirements.txt
│   └── tasks.py          : Celery run scrapping tasks 
├── cron_indeed_scrapping_test.py
├── cron_test.py
├── docker-compose.yml    : docker-compose build whole system : api, celery-queue, redis, and flower(celery job monitor)
├── legacy_project        
├── logs                  : Save running logs 
├── output                : Save scraped data 
├── requirements.txt
└── travis_push_github.sh : Script auto push output to github via Travis

Tech

Celery : parallel/single thread python tasks management tool (celery broker/worker)
Redis : key-value DB save task data
Flower : UI monitor celery tasks
Flask : python light web framework, as project backend server here
Docker : build the app environment

Todo

TODO

### Project level

0. Deploy to Heroku cloud and make the scrapper as an API service 
1. Dockerize the project 
2. Run the scrapping (cron/paralel)jobs via Celery 
4. Add test (unit/integration test) 
5. Design DB model that save scrapping data systematically 

### Programming level 

1. Add utility scripts that can get XPATH of all objects in html
2. Workflow that automate whole processes
3. Job management 
	- Multiprocessing
	- Asynchronous
	- Queue 
4. Scrapping tutorial 
5. Scrapy, Phantomjs 

### Others 

1. Web scrapping 101 tutorial

Ref

- Scraping via Celery - https://www.pythoncircle.com/post/518/scraping-10000-tweets-in-60-seconds-using-celery-rabbitmq-and-docker-cluster-with-rotating-proxy/

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

web_scraping

Quick Start

File structure

Tech

Todo

Ref

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 380 Commits
api		api
celery_queue		celery_queue
legacy_project		legacy_project
logs		logs
output		output
script		script
.gitignore		.gitignore
.travis.yml		.travis.yml
Dockerfile		Dockerfile
Dockerfile_dev		Dockerfile_dev
README.md		README.md
cron_indeed_scrapping_test.py		cron_indeed_scrapping_test.py
cron_test.py		cron_test.py
docker-compose.yml		docker-compose.yml
requirements.txt		requirements.txt
slack_push.sh		slack_push.sh
travis_push_github.sh		travis_push_github.sh

dbendelman/web_scraping

Folders and files

Latest commit

History

Repository files navigation

web_scraping

Quick Start

File structure

Tech

Todo

Ref

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages