Skip to content

terratensor/mil-news-parser-example

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Парсер новостей Минобороны России

Этот проект позволяет парсить новости с официального сайта Министерства обороны РФ (mil.ru).

Особенности

  • Получение заголовка, даты, автора и содержания новости
  • Автоматическая очистка текста от лишних пробелов и форматирования
  • Сохранение результатов в JSON

Установка

  1. Клонируйте репозиторий:
git clone https://github.com/ваш-username/mil-news-parser.git
cd mil-news-parser
  1. Создайте и активируйте виртуальное окружение:
python -m venv venv
source venv/bin/activate # Linux/MacOS
# ИЛИ
venv\Scripts\activate # Windows
  1. Установите зависимости:
pip install -r requirements.txt
  1. Установите Playwright браузер:
playwright install chromium

Использование

  1. Активируйте виртуальное окружение (если еще не активировано):
source venv/bin/activate # Linux/MacOS
# ИЛИ
venv\Scripts\activate # Windows
  1. Запустите пример:
python example.py --url "https://mil.ru/news/e0e4b7d0-ef73-42a7-945c-da4369542ee0"
# или
NEWS_URL="https://mil.ru/news/e0e4b7d0-ef73-42a7-945c-da4369542ee0" python example.py

Инструкция по сборке:

1. Соберите образ:

docker build -t mil-news-parser .

2. Если нужно очистить кеш:

docker build --no-cache -t mil-news-parser .

3. Запустите контейнер:

Через аргумент

docker run --rm mil-news-parser --url "https://mil.ru/news/e0e4b7d0-ef73-42a7-945c-da4369542ee0"

4. Для локального запуска без Docker:

python example.py --url "https://mil.ru/news/e0e4b7d0-ef73-42a7-945c-da4369542ee0"

или

NEWS_URL="https://mil.ru/news/e0e4b7d0-ef73-42a7-945c-da4369542ee0" python example.py

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published