Вонючие грибочки #3 [Логистическая регрессия]

Сложность: 1500

Перед вами — усложнённая версия задачи классификации по данным о грибах.
По совокупности морфологических, химических и экологических признаков необходимо предсказать, является ли гриб потенциально опасным.

Целевая переменная:

is_dangerous
- 1 — гриб потенциально опасен
- 0 — гриб считается безопасным

Обратите внимание: классы несбалансированы — опасных грибов заметно меньше, чем безопасных.


Описание признаков

В данных представлены несколько типов признаков:

1. Морфологические признаки гриба (категориальные)

Характеристики внешнего вида и строения гриба, например: - cap-shape — форма шляпки
- cap-surface — поверхность шляпки
- cap-color — цвет шляпки
- bruises — наличие пятен/повреждений
- gill-attachment, gill-spacing, gill-size, gill-color — параметры пластинок
- stalk-shape, stalk-root — форма и тип ножки
- stalk-surface-above-ring, stalk-surface-below-ring — поверхность ножки выше и ниже кольца
- stalk-color-above-ring, stalk-color-below-ring — цвет ножки
- veil-type, veil-color — тип и цвет покрывала
- ring-number, ring-type — количество и тип кольца
- spore-print-color — цвет спорового отпечатка
- population — плотность популяции
- habitat — среда произрастания

2. Экологические и региональные признаки

3. Химико-аналитические признаки

Числовые признаки, отражающие некоторые результаты условного «химического анализа» гриба: - chemical_signature_1
- chemical_signature_2
- chemical_signature_3

4. Бинарные и производные признаки

5. Дополнительные числовые показатели

Числовые признаки, моделирующие различные физические и экологические свойства грибной среды: - cap_firmness_index
- surface_moisture_level
- fiber_thickness_score
- pore_density_index
- local_humidity_index
- soil_mineral_level
- forest_canopy_density
- airflow_intensity
- spore_dispersal_score
- cap_radiation_index


Формат данных

train.csv

Содержит обучающие объекты: - id — идентификатор наблюдения
- все перечисленные выше признаки
- is_dangerous — целевая переменная

test.csv

Содержит тестовые объекты: - id
- все признаки, кроме is_dangerous

sample_submission.csv

Шаблон файла для отправки решения: - id
- is_dangerous — сюда нужно записать ваши предсказания (0 или 1, либо вероятности — в зависимости от формата, который требуется в соревновании/задании)

answer.csv

Файл с истинными значениями целевой переменной для объектов из test.csv (используется для проверки решений).


Цель

Построить модель, которая по набору признаков гриба предсказывает вероятность того, что гриб является опасным (is_dangerous = 1), и на основе этой вероятности принимает решение о классификации.

Рекомендуется уделить внимание: - корректной обработке категориальных признаков,
- работе с несбалансированными классами (подбор метрики, возможная балансировка, веса классов),
- анализу важности признаков и возможных взаимодействий между ними.

Данные для обучения: train_data

Данные для тестирования: test_data

Пример правильного ответа: sample_submission_data

Метрика задачи: f1 стандартная метрика

Отправить решение

Чтобы отправить решение, войдите в аккаунт.

Мои 5 посылок по задаче: Вонючие грибочки #3 [Логистическая регрессия]

Пока нет посылок по этой задаче.
ID Дата Статус Детали
Нет посылок