"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"plt.figure(figsize=(10,4))\n",
"\n",
"plt.hist(np.log1p(target['target']), bins = 200);"
]
},
{
"cell_type": "markdown",
"id": "a0b88862-bd0a-4493-9342-38f20407bf78",
"metadata": {},
"source": [
"В распределении очень много нулей, так что стоит смотреть чуть уже:"
]
},
{
"cell_type": "code",
"execution_count": 12,
"id": "a7da6bae-7c27-4cc3-ba62-82d3a606a15f",
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"plt.figure(figsize=(10,4))\n",
"\n",
"plt.hist(np.log1p(target.loc[target['target'] > 0, 'target']), bins = 200);"
]
},
{
"cell_type": "markdown",
"id": "38caffeb-d66a-4393-bfdc-9ece2ec720ac",
"metadata": {},
"source": [
"Распределение выглядит очень похожим на смесь:\n",
"- Есть клиенты с значениями около нуля\n",
"- Есть компонента смеси с центром в районе 6, то есть ~400 (np.exp(6) - 1)\n",
"- Есть компонента справа, с центров в районе 13, то есть ~440,000\n",
"- И есть еще клиенты с ровно 0, которых мы убрали с графика\n",
"\n",
"Выглядит заманчиво и для ML, и визуализации. Но нас пока интересует только сабмит.\n",
"\n",
"### Catboost\n",
"\n",
"Начнём собирать всё что нам потребуется дя обучения Catboost-а.\n",
"\n",
"- Будем ли мы проверять, что порядок `user_id` полностью совпадает в train и target?\n",
"- Будем ли мы сразу настраивать свою валидацию и делить данные?\n",
"- Или может быть будем что-либо преобразовывать?\n",
"\n",
"Нет, нас интересует atboost сабмит ASAP 🤗️️️️️️ "
]
},
{
"cell_type": "code",
"execution_count": 13,
"id": "378306c2-1373-4868-96d2-0e9b54bcde9f",
"metadata": {},
"outputs": [],
"source": [
"train_pool = Pool(data = train, \n",
" label = np.log1p(target['target']), \n",
" cat_features = categorical_features_indices)"
]
},
{
"cell_type": "markdown",
"id": "e35224b7-1329-47ce-8ec6-e69d0ae6a0a9",
"metadata": {},
"source": [
"#### Обучение\n",
"\n",
"Главные настройки, которые нам стоит учесть:\n",
"\n",
"- Так как метрика соревнования это RMSLE, а мы уже логарифмировали (log1p) целевую переменную, оптимизировать мы будем RMSE\n",
"- У нас много пропусков в данных, поэтому нам очень повезло что у Catboost есть настройка nan_mode"
]
},
{
"cell_type": "code",
"execution_count": 14,
"id": "ff688458-d150-42e8-99d1-b8aced7ffd61",
"metadata": {},
"outputs": [],
"source": [
"model = CatBoostRegressor(iterations = 100, \n",
" depth = 6, \n",
" learning_rate = 0.1, \n",
" loss_function = 'RMSE', \n",
" nan_mode = 'Min', \n",
" random_seed = 314,\n",
" verbose = 10)\n"
]
},
{
"cell_type": "code",
"execution_count": 15,
"id": "3cd7c516-80b2-438c-ac59-f14e181c09ee",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"0:\tlearn: 5.1242446\ttotal: 128ms\tremaining: 12.7s\n",
"10:\tlearn: 2.7903763\ttotal: 891ms\tremaining: 7.21s\n",
"20:\tlearn: 2.2642536\ttotal: 1.65s\tremaining: 6.21s\n",
"30:\tlearn: 2.1466213\ttotal: 2.33s\tremaining: 5.18s\n",
"40:\tlearn: 2.1033289\ttotal: 3s\tremaining: 4.31s\n",
"50:\tlearn: 2.0807207\ttotal: 3.63s\tremaining: 3.48s\n",
"60:\tlearn: 2.0606817\ttotal: 4.26s\tremaining: 2.72s\n",
"70:\tlearn: 2.0467002\ttotal: 4.91s\tremaining: 2s\n",
"80:\tlearn: 2.0315319\ttotal: 5.6s\tremaining: 1.31s\n",
"90:\tlearn: 2.0204322\ttotal: 6.22s\tremaining: 615ms\n",
"99:\tlearn: 2.0125081\ttotal: 6.84s\tremaining: 0us\n"
]
},
{
"data": {
"text/plain": [
""
]
},
"execution_count": 15,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"model.fit(train_pool)"
]
},
{
"cell_type": "markdown",
"id": "fe974317-8a22-4a11-abf7-298245c3e3a9",
"metadata": {},
"source": [
"Мы успешно обучили модель 🌟️️️️️️\n",
"\n",
"И вправду — зачем нам валидация, если можно ее сразу отправить в соревнование и узнать наш результат на лидерборде? Он же не будет прямо сильно хуже чем в логе обучения? (ведь правда, да?)\n",
"\n",
"### Подготовка сабмита\n",
"\n",
"Посмотрим на пример рабочего бейзлайн решения. \n",
"\n",
"Именно в таком формате платформа ждет от нас решения:"
]
},
{
"cell_type": "code",
"execution_count": 16,
"id": "456c9f2e-e51c-4419-a402-871cfd1322d6",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"(318451, 2)"
]
},
"execution_count": 16,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"sample = pd.read_csv('data/task3/sample_submit_naive.csv')\n",
"sample.shape"
]
},
{
"cell_type": "code",
"execution_count": 17,
"id": "da43b692-9ec7-415d-9c61-42ffaaf6cdf5",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
user_id
\n",
"
predict
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
1000008
\n",
"
1.004656e+06
\n",
"
\n",
"
\n",
"
1
\n",
"
1000009
\n",
"
0.000000e+00
\n",
"
\n",
"
\n",
"
2
\n",
"
1000013
\n",
"
5.047758e+02
\n",
"
\n",
"
\n",
"
3
\n",
"
1000016
\n",
"
1.680799e+05
\n",
"
\n",
"
\n",
"
4
\n",
"
1000017
\n",
"
2.222542e+02
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" user_id predict\n",
"0 1000008 1.004656e+06\n",
"1 1000009 0.000000e+00\n",
"2 1000013 5.047758e+02\n",
"3 1000016 1.680799e+05\n",
"4 1000017 2.222542e+02"
]
},
"execution_count": 17,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"sample.head(5)"
]
},
{
"cell_type": "markdown",
"id": "526becca-affc-439c-a378-15aa630705f3",
"metadata": {},
"source": [
"С форматом тоже всё понятно. \n",
"\n",
"Важно заметить, что предсказания от нас ждут без преобразований целевой переменной, так что нужно будет сделать обратные преобразования предсказаний нашей модели.\n",
"\n",
"#### Использование модели \n",
"\n",
"Тестовые данные у нас уже есть, но их нужно подготовить для формата Catboost-а."
]
},
{
"cell_type": "code",
"execution_count": 18,
"id": "4ba55359-c12f-49af-9ddd-7cc50594f2d8",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"