Этот проект позволяет парсить новости с официального сайта Министерства обороны РФ (mil.ru).
- Получение заголовка, даты, автора и содержания новости
- Автоматическая очистка текста от лишних пробелов и форматирования
- Сохранение результатов в JSON
- Клонируйте репозиторий:
git clone https://github.com/ваш-username/mil-news-parser.git
cd mil-news-parser- Создайте и активируйте виртуальное окружение:
python -m venv venv
source venv/bin/activate # Linux/MacOS
# ИЛИ
venv\Scripts\activate # Windows- Установите зависимости:
pip install -r requirements.txt- Установите Playwright браузер:
playwright install chromium- Активируйте виртуальное окружение (если еще не активировано):
source venv/bin/activate # Linux/MacOS
# ИЛИ
venv\Scripts\activate # Windows- Запустите пример:
python example.py --url "https://mil.ru/news/e0e4b7d0-ef73-42a7-945c-da4369542ee0"
# или
NEWS_URL="https://mil.ru/news/e0e4b7d0-ef73-42a7-945c-da4369542ee0" python example.pydocker build -t mil-news-parser .docker build --no-cache -t mil-news-parser .Через аргумент
docker run --rm mil-news-parser --url "https://mil.ru/news/e0e4b7d0-ef73-42a7-945c-da4369542ee0"python example.py --url "https://mil.ru/news/e0e4b7d0-ef73-42a7-945c-da4369542ee0"или
NEWS_URL="https://mil.ru/news/e0e4b7d0-ef73-42a7-945c-da4369542ee0" python example.py