Сложность: 900
КОНТЕКСТ: Вы работаете аналитиком в Международном уфологическом центре. Имеются данные наблюдений НЛО по всему миру за последние 10 лет. Ваша задача — построить модель, предсказывающую вероятность контакта с инопланетным разумом на основе параметров наблюдения.
ОСОБЕННОСТИ ДАННЫХ: 1. Присутствует мультиколлинеарность между некоторыми признаками 2. Есть нелинейные зависимости 3. Содержатся категориальные и бинарные признаки 4. Присутствуют шумовые переменные без predictive power 5. Все числовые признаки стандартизированы
СТРУКТУРА ДАННЫХ: train.csv - обучающая выборка (7000 наблюдений) test.csv - тестовая выборка (3000 наблюдений)
ПРИЗНАКИ: Числовые: - latitude - широта места наблюдения (стандартизирована) - altitude - высота наблюдения в метрах (стандартизирована) - duration - длительность наблюдения в секундах (стандартизирована) - temperature - температура воздуха (стандартизирована) - population_density - плотность населения (стандартизирована) - duration_squared - квадрат длительности наблюдения (стандартизирован) - interaction - произведение высоты и длительности (стандартизировано) - noise_1, noise_2 - случайные шумовые признаки
Категориальные (one-hot encoded):
- terrain_urban - городская местность (1/0)
- terrain_rural - сельская местность (1/0)
- terrain_mountain - горная местность (1/0)
- terrain_coastal - прибрежная зона (1/0)
- terrain_desert - пустыня (1/0)
Бинарные: - is_night - ночное время наблюдения (1=ночь, 0=день)
ЦЕЛЕВАЯ ПЕРЕМЕННАЯ: - alien_contact_prob - вероятность контакта с инопланетянами (0-1) (доступна только в train.csv)
Метрика: RMSE
Данные для обучения: train_data
Данные для тестирования: test_data
Пример правильного ответа: sample_submission_data
Чтобы отправить решение, войдите в аккаунт.
| ID | Дата | Статус | Детали | |
|---|---|---|---|---|
| Нет посылок | ||||