Чтобы лучше усвоить материал, рекомендуем вам использовать данные для примера и Python Notebook.
Экспоненциальный рост — это математическая функция, которая может использоваться в нескольких ситуациях. С ее формулой можно вычислить количество случаев в определенный момент времени. В случае с коронавирусом — число зараженных людей.
Причиной использования экспоненциального роста для моделирования вспышки коронавируса является то, что, согласно исследованиям специалистов, первая вспышка эпидемии следует принципу экспоненциального роста.
Экспоненциальный рост выражается следующей формулой:
Функция экспоненциального ростаГде:
Рассмотрим гипотетический случай, в котором:
Сначала подставляем значения a и b, чтобы получить формулу для нашей эпидемии:
Далее мы используем эту формулу, чтобы вычислить значение y для каждого значения t от 0 до 14. Таким образом, мы получим число зараженных людей в каждый промежуток времени, как видно из таблицы ниже. При 1 зараженном в период 0 и факторе роста 2, получаем более 16000 случаев в период 14.
В графическом представлении мы получаем кривую, очень напоминающую те, которые видим в ситуации с коронавирусом:
График экспоненциального роста с фактором роста 2Чтобы найти реальный фактор роста эпидемии коронавируса, рассмотрим данные о ее распространении:
Данные о коронавирусе. Источник: https://covid.ourworldindata.org/data/full_data.csv Находим фактор роста с помощью линейной регрессииНа первый взгляд эти данные говорят только о количестве случаев в день, а не о факторе роста заражений. Лучший способ найти фактор роста, основываясь на эмпирических ежедневных наблюдениях, — это использовать статистическую модель, называемую линейной регрессией.
Линейная регрессия позволяет определить наилучшие значения для a и b в указанной ниже формуле, учитывая эмпирические наблюдения для y и x. В этой формуле у — количество случаев, а х — время. Однако необходимо слегка переписать функцию экспоненциального роста, так как линейная регрессия может работать только с формулами следующего вида:
Тип формулы, который нужен для линейной регрессии Переписываем экспоненциальную формулу для линейной регрессииДля начала необходимо переписать формулу в виде линейной регрессии. Для этого воспользуемся логарифмами:
Шаг 1. Первым делом импортируем данные в Python Notebook и применяем преобразование логарифма:
Шаг 2. Далее используем библиотеку Statsmodels для определения функции линейной регрессии:
Шаг 3. Составляем функцию прогнозирования на основе таблицы.
Вернемся к нашей формуле линейной регрессии:
Тип формулы, который нужен для линейной регрессииТаблица statsmodels дает значения для a и b под coef (в середине):
Теперь мы можем заполнить функцию линейной регрессии:
Обратите внимание, что:
Следовательно:
Чтобы найти действительные значения, нам нужно вычислить их с помощью экспоненты:
Теперь можно вернуться к исходной формуле экспоненциального роста и вставить эти значения, чтобы узнать фактическое значение в случае коронавируса:
Фактическая формула для эпидемии коронавирусаПолученную выше формулу можно использовать для прогнозирования ситуации на любую дату. Стоит отметить, что данные прогнозы являются лишь примером, показывающим, как математика и статистика могут использоваться в эпидемиологии. Эпидемиологи из реальной жизни, помимо экспоненциального роста, тестируют разные типы моделей, а также проделывают большую работу по валидации моделей, что было пропущено в данном примере.
Как только лучшая модель будет найдена, ее можно использовать для прогнозирования. Используя функцию, которую мы нашли с помощью кривой экспоненциального роста, можно сделать прогноз на 2 недели после последнего 68-го дня в нашем наборе данных. Для этого просто помещаем t = 68 в формулу, и модель предсказывает количество заражений на этот день: 3355.
Мы рассмотрели применение модели линейной регрессии для прогнозирования процесса экспоненциального роста. Обратите внимание на следующие меры предосторожности:
Перевод статьи Joos Korstanje: Modeling Exponential Growth
Комментарии