[Statistics] 포아송분포란?
in Math on Math, Statistics
포아송분포와 지수분포의 의미
이항 분포
포아송분포를 살펴보기 전에 먼저 이항분포에 관해 이야기 해보자.
이항 분포는 동전 던지기의 “앞면” 혹은 “뒷면”과 같이 두 가지 사건만 일어날 수 있는 경우에 대해 기대해볼 수 있는 분포라고 할 수 있다.
또한 이항 분포는 특정 조건을 만족하면 그 분포가 정규 분포에 근사할 수 있기 때문에 이는 정규분포에 대한 이해와도 관련이 있다.
이항분포의 정의는 다음 수식과 같다.
여기서 k = 0,1,2…n 이고, 이는 이항 계수와 같은 식으로 나타낸다.
이때 k는 이 경우 성공 횟수를 의미한다 예를 들어 동전을 10번 던질시 확률이 0.5이므로 k=1 인 경우는 자주 나오지 않을 것이다 반대로 k=5일때 확률이
제일 높을 것으로 예상되는 것이다.
이항 분포의 근사
만약 n을 매우 많이 늘리게 되면 어떻게 될까? 만약 이항 분포의 모습이 종모양의 정규 분포의 형태를 보인다면 근사할 수 있음을 알 수 있다.
수학자들은 이항 분포가 정규분포의 형태와 유사해질 수 있다고 볼 수 있는 기준을 np와 np(1-p)^0.5 가 5보다 클 때로 보고 있고 이때 평균이 np이고 분산이 np(1-p)인 정규분포를 따른다고 볼 수 있다.
포아송 분포
그럼 이제 포아송 분포를 보도록 하자
포아송 분포란 정해진 시간안에 어떤 사건이 일어날 횟수에 대한 기대값을 람다라고 하였을때, 그 사건이 n회 일어날 확률은 다음과 같다.
포아송 분포는 왜 필요한가?
예를 들어보자 만약 30분 이라는 시간동안 가게에 온 손님이 올 확률을 계산하고 싶다고 해보자 만약 4시간에 20명의 손님이 왔다고 가정한다면 1분에는 1/12의 확률로 손님이 온다는 것이다
그러면 우리는 240분이라는 시간 동안 1분에 1/12의 확률로 일어나는 사건이 독립적으로 240번 일어나고 있는 일이라고 할 수 있다.
다시 말해 이런 경우에 이항분포를 사용해 30분동안 몇명의 손님이 올 것인가에 대한 확률 분포를 얻을 수 있다.
이전에 보았던 이항 분포에 대입해서 보면 B(240 , 1/12)를 따르는 사건이라고 생각하고 문제를 푼다면, 평균적으로 240 * 1/12라는 결론을 얻을 수 있지만 분포는 아래의 수식을 이용하는데
이는 계산이 꽤 복잡하고 오래걸린다… 이를 해결하기 위해 고안된 분포가 포아송 분포이다.
포아송분포 수식
복잡하지 않은 전개 방식을 거치고 나면 이항 분포는 아래와 같은 수식을 보인다.
이는 수많은 사건 중 (n-> inf) 특정한 사건이 발생할 확률이 매우 적은 확률 변수가 갖는 분포임을 알 수 있다.
지수 분포
지수 분포의 확률밀도 함수는 아래와 같다.
사건이 서로 독립적일때, 일정 시간동안 발생하는 사건의 회수가 포아송 분포를 따른다면, 다음 사건이 일어날 때 까지 대기 시간은 지수 분포를 따른다.
지수분포의 쓸모
포아송 분포가 어떤사건이 평균적으로 람다만큼 발생한다고 했을 때, 단위시간동안 사건이 k번 일어날 확률에 대한 분포이다
여기서 이런 사건이 처음 일어나는 때 까지 걸리는 시간이 T시간 이하일 확률은 얼마인지에 관한 문제이다.
유도
만약 분포를 f(t)라고 한다면 T단위 시간에 첫 사건이 일어날 확률은 다음과 같이 구해지는 것이여야한다.
포아송 분포를 이용해 T단위 시간동안 사건이 일어나지 않을 확률을 계산해서 전체 확률값 =1 에서 빼주면 그 결과가 바로 T시간안에 해당 사건이 일어날 확률이기 때문이다. 즉 아래의 수식을 따르게 된다.
전체 사건에서 T시간동안 사건이 발생하지 않을 확률을 빼준것이다 이떄, 확률 밀도함수이므로
그리고 이를 게산하면 f(t)는
가 바로 지수분포이다.