Обзор одного из самых известных распределений вероятностей
Фон
Распределение Пуассона — это вездесущее дискретное распределение вероятностей. Он был опубликован Симеоном Дени Пуассоном в начале 19 века и с тех пор нашел применение во многих отраслях, включая страхование, эпидемиологию и электронную коммерцию. Таким образом, это важная концепция, о которой должны знать специалисты по данным. В этом посте мы углубимся в тонкости дистрибутива и приведем примеры из реального мира.
Интуиция
Основная концепция распределения Пуассона заключается в количественной оценке вероятности того, что событие произойдет определенное количество раз в течение заданного интервала времени.
В качестве примера рассмотрим розничный магазин, который посещает в среднем 20 покупателей в час. Используя распределение Пуассона, мы можем рассчитать вероятность того, что магазин примет определенное количество покупателей в течение часа, например 10, 15 или 30.
Теория
Функция массы вероятности (PMF) для распределения Пуассона:
Где:
- e: число Эйлера (~ 2,73)
- k: Количество вхождений (≥ 0)
- X: Дискретная случайная величина (≥ 0)
- λ: ожидаемое количество вхождений (≥ 0)
Распределение Пуассона параметризуется λ, которое является средним значением числа вхождений, E(X) = λ, и дисперсии, VAR(X) = λ распределения. См. Здесь для получения среднего значения и дисперсии.
Стоит отметить, что распределение Пуассона фактически получено из биномиального распределения. Хотя мы не будем углубляться в вывод в этой статье, заинтересованный читатель может найти его здесь.
Условия распределения Пуассона:
- Число событий, k, происходит независимо (процесс Пуассона)
- События происходят случайным образом в пределах временного интервала
- Ожидаемое количество событий фиксировано
- Вероятность получения события в любой момент интервала времени равна
Примеры и графики
Возвращаясь к нашему предыдущему примеру с магазином, где среднее количество покупателей в час равно 20. Какова вероятность того, что магазин примет 10 покупателей за один час?
Итак, что мы имеем:
- λ = 20
- k = 10
И, вводя эти значения в формулу PMF:
Как мы видим, он очень низкий. Чтобы получить лучшее представление о распределении посещений клиентов, мы можем построить всю PMF:
Как видно, распределение посещений клиентов соответствует форме кривой, близкой к колоколообразной, с наиболее вероятным числом клиентов, равным 20. Таким образом, 20 является ожидаемым числом. Для дальнейшего понимания давайте рассмотрим несколько сценариев, в которых среднее количество посетителей клиентов составляет 10 или 30, и построим соответствующие распределения:
Таким образом, когда среднее значение становится меньше, большая часть вероятностной массы в распределении смещается влево. Этот сдвиг является ожидаемым, поскольку средний показатель представляет собой ожидаемый уровень посещений клиентов. Следовательно, количество посетителей, скорее всего, будет около среднего значения.
Резюме и дальнейшие мысли
Распределение Пуассона — широко используемое и известное распределение вероятностей в науке о данных и статистике. Он моделирует вероятность событий, происходящих с определенной скоростью, на основе заданной средней скорости. Распределение Пуассона находит применение в различных отраслях, включая генетику, страхование и обнаружение мошенничества.
Если вы хотите просмотреть полный код, используемый в этом блоге, он доступен на моем GitHub здесь:
Ссылки и дополнительная литература
- Еще несколько примеров распределения Пуассона: https://brilliant.org/wiki/poisson-distribution/
Свяжись со мной!
- Чтобы читать неограниченное количество историй на Medium, обязательно зарегистрируйтесь здесь! 💜
- Чтобы получать обновления, когда я размещаю сообщения, подпишитесь на уведомления по электронной почте здесь! 😀
- LinkedIn👔
- Твиттер🖊
- GitHub🖥
- Kaggle🏅
(Все эмодзи разработаны OpenMoji — проектом эмодзи и значков с открытым исходным кодом. Лицензия: CC BY-SA 4.0)