Тип студента по активности [PCA]

Сложность: 900

Студенты носят умные браслеты, которые собирают множество показателей: шаги, сон, встречи, сообщения и разные “шумные” сенсоры.
Исследователи предполагают, что за всей этой статистикой стоят несколько скрытых факторов поведения, например:

Часть студентов при этом ведёт себя как “спортсмены”, часть — как “уставшие” (много спят, отмечают высокий fatigue_score), часть — как “очень социальные”.

Вам необходимо по данным трекера предсказать тип студента.


Целевая переменная

persona_class — тип (класс) студента:

(В данных есть небольшой шум: не все студенты идеально “чистые типы”.)


Признаки

Каждая строка — один студент.

Основные признаки:

Дополнительно есть несколько слабосвязанных/шумовых признаков:

Также есть:


Формат файлов

train.csv

Содержит обучающую выборку:

test.csv

Содержит тестовую выборку:

sample_submission.csv

Шаблон отправки решения:

answer.csv

Файл с правильными ответами для объектов из test.csv (используется для автоматической проверки по метрике accuracy).


Задача

Построить модель, которая по данным трекера предсказывает тип студента persona_class.

Рекомендуемый путь решения:

  1. Масштабировать признаки (StandardScaler или аналог).
  2. Выполнить PCA:
  3. посмотреть, сколько главных компонент объясняют 80–90% дисперсии;
  4. визуализировать студентов в пространстве первых 2–3 компонент;
  5. посмотреть на вклад исходных признаков в компоненты (какие связаны с активностью, какие с усталостью, какие с социалкой).
  6. Обучить простой классификатор (например, логистическую регрессию, SVM или дерево)
    в пространстве исходных признаков и/или в пространстве главных компонент.
  7. Оценить качество по метрике accuracy на валидации.
  8. Сделать предсказания для test.csv и сохранить их в формате sample_submission.csv.

Цель

Через эту задачу вы:

Данные для обучения: train_data

Данные для тестирования: test_data

Пример правильного ответа: sample_submission_data

Метрика задачи: accuracy стандартная метрика

Отправить решение

Чтобы отправить решение, войдите в аккаунт.

Мои 5 посылок по задаче: Тип студента по активности [PCA]

Пока нет посылок по этой задаче.
ID Дата Статус Детали
Нет посылок