course website: https://stepik.org/course/4852/info
Нужно было предсказать, сможет ли пользователь успешно закончить онлайн курс "Анализ данных в R". Результатом проверки точности предсказаний было значение ROC AUC score. В качестве алгоритма использован RandomForest
-
/datasets/event_data_train.zip — данные о действиях, которые совершают студенты со стэпами:
- step_id - id стэпа
- user_id - анонимизированный id юзера.
- timestamp - время наступления события в формате unix date.
- action - событие, возможные значения:
- started_attempt - начало попытки решить.
- passed - удачное решение практического шага.
-
/datasets/submissions_data_train.zip — данные о времени и статусах сабмитов к практическим заданиям:
- step_id - id стэпа.
- timestamp - время отправки решения в формате unix date.
- submission_status - статус решения.
- user_id - анонимизированный id юзера.
-
/datasets/event_data_test.zip — как и event_data_train.zip, но содержит данные за первые 2 дня.
-
/datasets/submissions_data_test.zip — как и submissions_data_train.zip, но содержит данные за первые 2 дня.
В финале формируется csv файл с оценкой веростности классов Пример таблицы с результатами:
user_id | is_gone |
---|---|
4 | 0.0 |
6 | 0.0 |
10 | 0.0 |
12 | 0.12749724059498363 |
13 | 0.5751964349895761 |
ROC AUC: 0.8908. Входит в 5ку лучших результатов среди участников