Сложность: 1000
Перед вами — расширенная версия задачи классификации по морфологическим признакам грибов.
По описаниям внешних характеристик гриба необходимо предсказать, является ли он опасным.
Целевая переменная:
is_dangerous
- 1 — гриб потенциально опасен
- 0 — гриб безопасен
Данные построены на основе классического набора характеристик грибов, а также содержат дополнительные признаки, основанные на свойствах гриба и условиях его произрастания.
В датасете присутствуют как стандартные морфологические признаки (категориальные), так и числовые дополнительные показатели. Среди признаков встречаются:
Морфологические свойства:
- cap-shape — форма шляпки
- cap-surface — поверхность шляпки
- cap-color — цвет шляпки
- bruises — наличие пятен
- odor — запах гриба
- gill-attachment, gill-spacing, gill-size, gill-color — характеристики пластинок
- stalk-shape, stalk-root — свойства ножки
- stalk-surface-above-ring, stalk-surface-below-ring
- stalk-color-above-ring, stalk-color-below-ring
- veil-type, veil-color
- ring-number, ring-type
- spore-print-color — цвет спорового отпечатка
- population — плотность популяции
- habitat — среда произрастания
Дополнительные числовые признаки:
- cap_firmness_index
- surface_moisture_level
- fiber_thickness_score
- pore_density_index
- local_humidity_index
- soil_mineral_level
- forest_canopy_density
- airflow_intensity
- spore_dispersal_score
- cap_radiation_index
А также бинарные признаки, рассчитанные по некоторым свойствам гриба:
- is_smelly — наличие выраженного запаха
- has_ring — наличие кольца на ножке
- dark_spore_print — тёмный цвет спорового отпечатка
Все признаки являются входными для построения модели.
train.csvСодержит:
- id
- все перечисленные признаки
- is_dangerous — целевая переменная
test.csvСодержит:
- id
- все признаки, кроме is_dangerous
sample_submission.csvШаблон:
- id
- is_dangerous (значения необходимо заполнить предсказаниями)
answer.csvФайл с правильными ответами для тестовой части.
На основе признаков гриба необходимо построить модель бинарной классификации, которая предсказывает, является ли гриб опасным.
Модель может быть любой, однако структура признаков и зависимости специально подобраны так, чтобы хорошо подходить для логистической регрессии после корректной обработки категориальных и числовых данных.
Данные для обучения: train_data
Данные для тестирования: test_data
Пример правильного ответа: sample_submission_data
Чтобы отправить решение, войдите в аккаунт.
| ID | Дата | Статус | Детали | |
|---|---|---|---|---|
| Нет посылок | ||||