This repository was archived by the owner on Oct 26, 2021. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 0
Запуск TDC с переданными файлами-конфигурациями #3
Copy link
Copy link
Open
Description
Необходимо написать python-скрипт, который будет запускать обработку датасета на нескольких предопределенных конфигурационных файлах (список процессоров внутри на свой вкус).
Для справки:
Loader - базовый класс в TDC для запуска процессоров: https://github.com/TextDatasetCleaner/TextDatasetCleaner/blob/master/src/textdatasetcleaner/loaders.py
Пример использования Loader: https://github.com/TextDatasetCleaner/TextDatasetCleaner/blob/master/src/textdatasetcleaner/cli.py#L57
Также, в этой задаче нужно подготовить несколько конфигов (>2), чтобы запускать обработку на них в цикле.
Будет хорошим бонусом, если:
- получится здесь же реализовать скачивание файла датасета (пример как это делается в TDC: https://github.com/TextDatasetCleaner/TextDatasetCleaner/blob/master/src/textdatasetcleaner/helpers.py#L28 , можно не копипастить код, а импортировать эту функцию)
- выбрать любой открытый подходящий датасет (см. здесь: https://github.com/datasets/awesome-data или https://github.com/awesomedata/awesome-public-datasets), но не копировать его целиком в репозиторий (добавить его в
.gitignoreили сделать ссылкой в скачивании)
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels