Обзор одного из самых известных распределений вероятностей

Фон

Распределение Пуассона — это вездесущее дискретное распределение вероятностей. Он был опубликован Симеоном Дени Пуассоном в начале 19 века и с тех пор нашел применение во многих отраслях, включая страхование, эпидемиологию и электронную коммерцию. Таким образом, это важная концепция, о которой должны знать специалисты по данным. В этом посте мы углубимся в тонкости дистрибутива и приведем примеры из реального мира.

Интуиция

Основная концепция распределения Пуассона заключается в количественной оценке вероятности того, что событие произойдет определенное количество раз в течение заданного интервала времени.

В качестве примера рассмотрим розничный магазин, который посещает в среднем 20 покупателей в час. Используя распределение Пуассона, мы можем рассчитать вероятность того, что магазин примет определенное количество покупателей в течение часа, например 10, 15 или 30.

Теория

Функция массы вероятности (PMF) для распределения Пуассона:

Где:

  • e: число Эйлера (~ 2,73)
  • k: Количество вхождений (≥ 0)
  • X: Дискретная случайная величина (≥ 0)
  • λ: ожидаемое количество вхождений (≥ 0)

Распределение Пуассона параметризуется λ, которое является средним значением числа вхождений, E(X) = λ, и дисперсии, VAR(X) = λ распределения. См. Здесь для получения среднего значения и дисперсии.

Стоит отметить, что распределение Пуассона фактически получено из биномиального распределения. Хотя мы не будем углубляться в вывод в этой статье, заинтересованный читатель может найти его здесь.

Условия распределения Пуассона:

  • Число событий, k, происходит независимо (процесс Пуассона)
  • События происходят случайным образом в пределах временного интервала
  • Ожидаемое количество событий фиксировано
  • Вероятность получения события в любой момент интервала времени равна

Примеры и графики

Возвращаясь к нашему предыдущему примеру с магазином, где среднее количество покупателей в час равно 20. Какова вероятность того, что магазин примет 10 покупателей за один час?

Итак, что мы имеем:

  • λ = 20
  • k = 10

И, вводя эти значения в формулу PMF:

Как мы видим, он очень низкий. Чтобы получить лучшее представление о распределении посещений клиентов, мы можем построить всю PMF:

Как видно, распределение посещений клиентов соответствует форме кривой, близкой к колоколообразной, с наиболее вероятным числом клиентов, равным 20. Таким образом, 20 является ожидаемым числом. Для дальнейшего понимания давайте рассмотрим несколько сценариев, в которых среднее количество посетителей клиентов составляет 10 или 30, и построим соответствующие распределения:

Таким образом, когда среднее значение становится меньше, большая часть вероятностной массы в распределении смещается влево. Этот сдвиг является ожидаемым, поскольку средний показатель представляет собой ожидаемый уровень посещений клиентов. Следовательно, количество посетителей, скорее всего, будет около среднего значения.

Резюме и дальнейшие мысли

Распределение Пуассона — широко используемое и известное распределение вероятностей в науке о данных и статистике. Он моделирует вероятность событий, происходящих с определенной скоростью, на основе заданной средней скорости. Распределение Пуассона находит применение в различных отраслях, включая генетику, страхование и обнаружение мошенничества.

Если вы хотите просмотреть полный код, используемый в этом блоге, он доступен на моем GitHub здесь:



Ссылки и дополнительная литература

Свяжись со мной!

(Все эмодзи разработаны OpenMoji — проектом эмодзи и значков с открытым исходным кодом. Лицензия: CC BY-SA 4.0)