Сложность: 1500
Перед вами — усложнённая версия задачи классификации по данным о грибах.
По совокупности морфологических, химических и экологических признаков необходимо предсказать, является ли гриб потенциально опасным.
Целевая переменная:
is_dangerous
- 1 — гриб потенциально опасен
- 0 — гриб считается безопасным
Обратите внимание: классы несбалансированы — опасных грибов заметно меньше, чем безопасных.
В данных представлены несколько типов признаков:
Характеристики внешнего вида и строения гриба, например:
- cap-shape — форма шляпки
- cap-surface — поверхность шляпки
- cap-color — цвет шляпки
- bruises — наличие пятен/повреждений
- gill-attachment, gill-spacing, gill-size, gill-color — параметры пластинок
- stalk-shape, stalk-root — форма и тип ножки
- stalk-surface-above-ring, stalk-surface-below-ring — поверхность ножки выше и ниже кольца
- stalk-color-above-ring, stalk-color-below-ring — цвет ножки
- veil-type, veil-color — тип и цвет покрывала
- ring-number, ring-type — количество и тип кольца
- spore-print-color — цвет спорового отпечатка
- population — плотность популяции
- habitat — среда произрастания
region — обобщённая категория региона, основанная на среде произрастания (лес, луга, болота, урбанизированные зоны и т.п.)Числовые признаки, отражающие некоторые результаты условного «химического анализа» гриба:
- chemical_signature_1
- chemical_signature_2
- chemical_signature_3
has_ring_flag — наличие кольца на ножке dark_spore_flag — индикатор тёмного цвета спорового отпечатка risk_synergy_index — числовой индекс, отражающий сочетание ряда факторов риска (например, связи между особенностями спор и условиями произрастания)Числовые признаки, моделирующие различные физические и экологические свойства грибной среды:
- cap_firmness_index
- surface_moisture_level
- fiber_thickness_score
- pore_density_index
- local_humidity_index
- soil_mineral_level
- forest_canopy_density
- airflow_intensity
- spore_dispersal_score
- cap_radiation_index
train.csvСодержит обучающие объекты:
- id — идентификатор наблюдения
- все перечисленные выше признаки
- is_dangerous — целевая переменная
test.csvСодержит тестовые объекты:
- id
- все признаки, кроме is_dangerous
sample_submission.csvШаблон файла для отправки решения:
- id
- is_dangerous — сюда нужно записать ваши предсказания (0 или 1, либо вероятности — в зависимости от формата, который требуется в соревновании/задании)
answer.csvФайл с истинными значениями целевой переменной для объектов из test.csv (используется для проверки решений).
Построить модель, которая по набору признаков гриба предсказывает вероятность того, что гриб является опасным (is_dangerous = 1), и на основе этой вероятности принимает решение о классификации.
Рекомендуется уделить внимание:
- корректной обработке категориальных признаков,
- работе с несбалансированными классами (подбор метрики, возможная балансировка, веса классов),
- анализу важности признаков и возможных взаимодействий между ними.
Данные для обучения: train_data
Данные для тестирования: test_data
Пример правильного ответа: sample_submission_data
Чтобы отправить решение, войдите в аккаунт.
| ID | Дата | Статус | Детали | |
|---|---|---|---|---|
| Нет посылок | ||||