Update README.md

unb-mds · Apr 28, 2024 · ac20ce8 · ac20ce8
1 parent be6640b
commit ac20ce8
Showing 1 changed file with 56 additions and 8 deletions.
diff --git a/README.md b/README.md
@@ -15,24 +15,72 @@ Visando ampliar a divulgação desse material, Licita BSB também possui um bot
 ## Como executar o projeto
 ### Backend:
 
-**1. Instalando dependências**
+Instruções para Executar o Scrapy:
+
+Para testar o scrapy, siga estas etapas:
+
+Clonar o Repositório:
+Certifique-se de clonar o repositório para o seu ambiente local usando o seguinte comando:
 
-Certifique-se de ter a [versão mais recente do Python](https://www.python.org/downloads/) instalada.
+```console
+git clone <URL_do_repositório>
+```
 
-Navegue até o diretório `backend` e encontre o arquivo `requirements.txt`. Instale as dependências com o seguinte comando:
+Entrar no Diretório do Projeto:
+Navegue para o diretório do projeto no terminal usando o comando cd:
+```console
+cd <nome_do_diretório>
 ```
-pip install -r requirements.txt
+Ativar o Ambiente Virtual (Opcional):
+```console
+python3 -m venv <nome_do_ambiente_virtual>
 ```
 
-**2. Executando o Django**
+Se estiver usando um ambiente virtual, ative-o:
+console
+source <nome_do_ambiente_virtual>/bin/activate
+
+
+Instale as bibliotecas necessárias:
+```console
+pip install --no-deps -r data_collection/requirements-dev.txt
+```
+#### Pronto. 
+### Agora, com o ambiente pronto para rodar o Scrapy, podemos seguir:
+1. Navegue até o diretório data_collection:
+```console
+cd data_collection
+``` 
+2. Verifique a lista de raspadores disponíveis:
+```console
+scrapy list
+```
+Se quiser converter para txt e apagar o pdf utilize <licita_bsb> se deseja somente raspar utilize <df_brasilia>
+3. Execute um raspador da lista:
+```console
+scrapy crawl <nome_do_raspador>
+```
+4. Os diários coletados na raspagem serão salvos no diretório `data_collection/data/licita_bsb/arquivos_raspados`
+
+#### Dicas de execução
+Além dos comandos acima, o Scrapy oferece outros recursos para configurar o comando de raspagem. Os recursos a seguir podem ser usados sozinhos ou combinados.  
+
+* *Limite de data*  
+Ao executar o item 3, o raspador coletará todos os diários oficiais do site publicador daquele município. Para execuções menores, utilize a flag de atributo -a seguida de:
 
-Para rodar o projeto, acesse o diretório `backend/licita_bsb` e execute o comando:
+start_date=AAAA-MM-DD: definirá a data inicial de coleta de diários.
+```console
+scrapy crawl <nome_do_raspador>-a start_date=<AAAA-MM-DD>
 ```
-python3 manage.py runserver
+end_date=AAAA-MM-DD: definirá a data final de coleta de diários. Caso omitido, assumirá a data do dia em que está sendo executado.
+```console
+scrapy crawl <nome_do_raspador> -a end_date=<AAAA-MM-DD>
 ```
 
-O servidor estará disponível por padrão na porta 8000 em http://localhost:8000/ (ou http://127.0.0.1:8000/)
+Nota:
 
+Certifique-se de ter feito o checkout na branch 46-scrapping-diario-oficial-df antes de executar o projeto.
+Antes de tentar rodar o projeto, certifique-se de instalar os requirements conforme as instruções acima.
 ### Frontend:
 
 **1. Instalando dependências**