From ac20ce88401c6ef45898b483ba0e68c1ee742858 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?V=C3=ADctor=20Schmidt?= <121871105+moonshinerd@users.noreply.github.com> Date: Sun, 28 Apr 2024 16:30:00 -0300 Subject: [PATCH] Update README.md --- README.md | 64 ++++++++++++++++++++++++++++++++++++++++++++++++------- 1 file changed, 56 insertions(+), 8 deletions(-) diff --git a/README.md b/README.md index f511d069..d4486f8b 100644 --- a/README.md +++ b/README.md @@ -15,24 +15,72 @@ Visando ampliar a divulgação desse material, Licita BSB também possui um bot ## Como executar o projeto ### Backend: -**1. Instalando dependências** +Instruções para Executar o Scrapy: + +Para testar o scrapy, siga estas etapas: + +Clonar o Repositório: +Certifique-se de clonar o repositório para o seu ambiente local usando o seguinte comando: -Certifique-se de ter a [versão mais recente do Python](https://www.python.org/downloads/) instalada. +```console +git clone +``` -Navegue até o diretório `backend` e encontre o arquivo `requirements.txt`. Instale as dependências com o seguinte comando: +Entrar no Diretório do Projeto: +Navegue para o diretório do projeto no terminal usando o comando cd: +```console +cd ``` -pip install -r requirements.txt +Ativar o Ambiente Virtual (Opcional): +```console +python3 -m venv ``` -**2. Executando o Django** +Se estiver usando um ambiente virtual, ative-o: +console +source /bin/activate + + +Instale as bibliotecas necessárias: +```console +pip install --no-deps -r data_collection/requirements-dev.txt +``` +#### Pronto. +### Agora, com o ambiente pronto para rodar o Scrapy, podemos seguir: +1. Navegue até o diretório data_collection: +```console +cd data_collection +``` +2. Verifique a lista de raspadores disponíveis: +```console +scrapy list +``` +Se quiser converter para txt e apagar o pdf utilize se deseja somente raspar utilize +3. Execute um raspador da lista: +```console +scrapy crawl +``` +4. Os diários coletados na raspagem serão salvos no diretório `data_collection/data/licita_bsb/arquivos_raspados` + +#### Dicas de execução +Além dos comandos acima, o Scrapy oferece outros recursos para configurar o comando de raspagem. Os recursos a seguir podem ser usados sozinhos ou combinados. + +* *Limite de data* +Ao executar o item 3, o raspador coletará todos os diários oficiais do site publicador daquele município. Para execuções menores, utilize a flag de atributo -a seguida de: -Para rodar o projeto, acesse o diretório `backend/licita_bsb` e execute o comando: +start_date=AAAA-MM-DD: definirá a data inicial de coleta de diários. +```console +scrapy crawl -a start_date= ``` -python3 manage.py runserver +end_date=AAAA-MM-DD: definirá a data final de coleta de diários. Caso omitido, assumirá a data do dia em que está sendo executado. +```console +scrapy crawl -a end_date= ``` -O servidor estará disponível por padrão na porta 8000 em http://localhost:8000/ (ou http://127.0.0.1:8000/) +Nota: +Certifique-se de ter feito o checkout na branch 46-scrapping-diario-oficial-df antes de executar o projeto. +Antes de tentar rodar o projeto, certifique-se de instalar os requirements conforme as instruções acima. ### Frontend: **1. Instalando dependências**