Трек #1
Определение вероятности появления заторов льда на реке Лена в весенний период

Общее описание задачи

Построить предиктивную модель, которая позволит за 60 дней рассчитать вероятность возникновения заторов льда на каждые сутки в период ледохода около населенных пунктов: Киренск, Витим, Пеледуй, Крестовский Лесоучасток, Ленск, Олёкминск, Покровск, Якутск, Батамай, Сангар.


Предпосылки

Из-за долгой, холодной и малоснежной зимы в Средней Сибири на реке Лена зимой образуется чрезвычайно толстый и прочный лед. Это приводит к тому, что практически каждую весну во время ледохода вниз по течению Лены передвигаются серии заторов льда – скопления льдин в русле реки, вызывающего стеснение живого сечения потока.

На образование заторов льда на Лене влияют как краткосрочные, так и долгосрочные факторы: прочность ледяного покрова перед вскрытием, интенсивность снеготаяния и скорость роста расходов воды в период весеннего половодья; большинство из них базируются на общих для всей территории метеосиноптических процессах, которые заключаются в преобладающих типах зимней атмосферной циркуляции (за январь февраль) и в отклонении мартовских температур воздуха от среднемноголетних значений. Всё это делает возможным заблаговременный прогноз вероятности возникновения затора.

Высокий горизонт планирования в этой задаче позволит службам МЧС заранее оптимально распределить ресурсы, чтобы усилить подготовку к противозаторным мероприятиям, предупредить население о надвигающейся опасности и снизить экономический и экологический ущерб.


Формулировка задачи

Участникам предлагается решить задачу бинарной классификации: для каждого гидропоста с помощью ежегодных данных до 15 февраля включительно необходимо установить, в какие из дней в период с 15 апреля по 15 июня происходит затор льда. Модель должна выдавать не сам лейбл класса («затор» и «отсутствие затора»), а вероятность класса «затор». Под вероятностью мы подразумеваем степень уверенности модели в классе «затор», нормированную до интервала [0, 1].

Прогноз необходим для гидропостов, расположенных рядом с населенными пунктами: город Киренск, посёлок городского типа Витим, посёлок городского типа Пеледуй, село Крестовский Лесоучасток, город Ленск, город Олёкминск, город Покровск, город Якутск, село Батамай, посёлок городского типа Сангар. Модель будет оцениваться на тестовой выборке, охватывающей 30-дневный период, во время которого возможны заторы.


Метрика

Усредненное по населенным пунктам (микровзвешенное) значение F1-score.

Формат решения

  1. Аннотация проекта (краткое описание - 2-4 предложения)
  2. Ссылка на я.диск/dropbox с ML-моделью, обученной на тренировочной выборке
  3. Ссылка на код, использованный при подготовке модели (ссылка на любой открытый репозиторий с кодом, с помощью которого строилась модель, а также кодом, запускающим модель).
  4. Ссылка на презентацию для очной защиты

Данные

Обучающая выборка, включающая:

  • архивные и оперативные наблюдения на гидрологических постах на интересующем отрезке реки Лена;
  • метеорологические и актинометрические данные, собираемые метеостанциями в округе гидропостов;
  • географические координаты гидропостов и метеостанций; для гидропостов — информация о положении относительно устья и истока реки, площадь водосбора,
  • сведения о населенных пунктах, подвергшихся затоплениям;
  • любые другие дополнительные данные из открытых источников, собранные участниками хакатона.


Критерии оценки

60 баллов распределяется в соответствии с результатом, который ML-модель показала на соревновании. Будет учитываться не место в турнирной таблице напрямую, а логарифмированное значение ошибки на тестовой выборке относительно величины ошибок других участников. По результатам соревнования на очную защиту перед жюри допускается не более 10 команд.

40 баллов распределяется по результатам оценки кода, выложенного в открытый репозиторий, а также выступления на очной защите в соответствии со следующими критериями:

  • обоснованность выбранных методов решения задачи с точки зрения гидрологии и применимости итоговой модели в работе МЧС (20 баллов);
  • оригинальность подхода, в частности, использование дополнительных данных из открытых источников для повышения качества модели (10 баллов);
  • качество кода: его чистота и понятность (5 баллов);
  • качество очной защиты: последовательность и понятность изложения (5 баллов).

Бенефициары разработанных решений: МЧС России, Республика Саха (Якутия), жители указанных в описании населенных пунктов.