RabbitMQ - Celery - Beautifulsoup

Distributed scrapping

Getting started

Initial Requirements

python 2.7

virtualenv

pip

rabbitmq-server

Installing dependencies (inside virutal environemtn)

pip install -r requirements.txt

Running the server

Starting rabbitmq consumer

python rabbit.py

Celery

Starting celery worker

celery -A processqueue.app worker

or

celery -A processqueue.app worker -P gevent

to start with gevent

Running the script

python script.py <filename>

eg:

python script.py urls.txt

Mongodb export of rejected and accepted entries

Accepted

mongoexport -d URLDATA -c accepted --csv --fields url --out accepted.csv

Rejected

mongoexport -d URLDATA -c rejected --csv --fields url --out rejected.csv

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
processqueue.py		processqueue.py
rabbit.py		rabbit.py
requirements.txt		requirements.txt
script.py		script.py
urls.txt		urls.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

processqueue.py

processqueue.py

rabbit.py

rabbit.py

requirements.txt

requirements.txt

script.py

script.py

urls.txt

urls.txt

Repository files navigation

RabbitMQ - Celery - Beautifulsoup

Distributed scrapping

Getting started

Running the server

Mongodb export of rejected and accepted entries

About

Releases

Packages

Languages

mantleCurve/rabbitmq-celery-beautifulsoup

Folders and files

Latest commit

History

Repository files navigation

RabbitMQ - Celery - Beautifulsoup

Distributed scrapping

Getting started

Running the server

Mongodb export of rejected and accepted entries

About

Topics

Resources

Stars

Watchers

Forks

Languages