Задача «Сломает ли человек стул в ИКЕА?»

Посетители ИКЕА по-разному испытывают стулья на прочность: кто-то спокойно пьёт кофе, кто-то загружается фрикадельками и садится вместе с рюкзаком и покупками.
Вам выдали анонимизированные данные испытаний стульев. По характеристикам человека, его поведения в магазине и параметрам стула нужно предсказать, сломается стул или выдержит.

Целевая переменная:

broke_chair
- 1 — стул сломался под посетителем
- 0 — стул выдержал испытание

Признаки

В данные включены как характеристики посетителя, так и параметры стула и «контекста» визита:

Характеристики посетителя

shopper_weight_kg — вес посетителя (кг)
backpack_weight_kg — вес рюкзака и пакетов, с которыми он сел на стул (кг)
meatballs_count — съедено фрикаделек в ресторане ИКЕА до посадки на стул
soda_ml — выпито газировки (мл) до посадки на стул
time_spent_minutes — время, проведённое в магазине до момента посадки (минуты)
stress_level — субъективный уровень стресса (от 1 до 10)
assembly_skill_level — навыки сборки мебели по шкале от 1 (собирает табуретку 3 часа) до 10 (собирает «ПАКС» без инструкции)
previous_chairs_broken — сколько стульев человек ломал за жизнь по собственным воспоминаниям

Характеристики стула и нагрузки

chair_model_max_load_kg — заявленная максимальная нагрузка на стул по паспорту (кг)
seat_pressure_index — инженерный индекс нагрузки на сиденье, учитывающий вес, посадку и распределение нагрузки (безразмерный показатель)

Формат данных

`train.csv`

Обучающая выборка. Каждая строка — один эпизод «человек сел на стул». Содержит:

id — идентификатор наблюдения
все признаки, перечисленные выше
broke_chair — целевая переменная (0 или 1)

`test.csv`

Тестовая выборка с теми же признаками, но без целевой переменной:

id
все признаки, кроме broke_chair

`sample_submission.csv`

Шаблон отправки ответа:

id
broke_chair — сюда нужно записать ваше предсказание для каждого объекта из test.csv
(в зависимости от формата задания это могут быть 0/1 или вероятности)

`answer.csv`

Файл с истинными значениями broke_chair для объектов из test.csv (используется только для проверки).

Цель задачи

Построить модель, которая по параметрам посетителя, его поведения и характеристикам стула предсказывает, сломается стул или нет.

Ваша задача — проанализировать признаки, подобрать подходящий алгоритм (в том числе попробовав очень простые модели по одному признаку) и добиться наилучшего качества предсказания.

Сломает ли стул в IKEA? [Decision stump]