Обычно эпидемии моделируют с помощью модели SIR (Susceptible, Infected, Recovered — восприимчивые, зараженные, выздоровевшие) и ее вариаций. Полученный таким образом прогноз будет хорошим, если коэффициенты для конкретного заболевания хорошо известны. Однако в случае с COVID-19 наука до сих пор не уверена даже в ключевом показателе — базовом коэффициенте воспроизведения (R0). Иначе говоря, в том, скольких человек заражает один больной. Поэтому модель Владислава Крамаренко — а значит и наш калькулятор — для составления прогноза использует машинной обучение.
Самой эффективной, по словам Владислава, оказалась модель градиентного бустинга над решающими деревьями. На каждом шаге она оценивает данные (население, площадь, урбанизацию и изменение числа зараженных за прошлый день) за выбранный день в конкретном географическом регионе.
Калькулятор составляет прогноз по количеству зараженных на неделю вперед и обновляется ежедневно.
Данные взяты с платформы kaggle, где в рамках инициативы CORD-19 (COVID-19 Open Research Dataset), запущенной в марте правительством США, собраны размеченные данные о населении стран, площади, степени урбанизации, проценте пожилых людей, количестве курящих. Также использованы данные Всемирного банка об уровне медицины: количестве врачей, медсестер, трат государства на медицину, числе тестов на коронавирус в день. Также использована информация о мобильности людей от Google и уровне самоизоляции от Яндекса. Информация о числе новых случаев в России берется с сайта Роспотребнадзора.