2020. 5. 20. 15:56ㆍ통계 빠개기/Statistics
< 기하 분포 >
수학적인 정의는 확률 변수 X의 밀도 함수가
로 주어지고 모수가 p인 분포를 뜻한다. 사실 위의 밀도 함수의 확률 변수 X는 첫 번째 성공이 나올 때 까지의 실패 횟수를 의미하는데, 확률 변수를 조금 변형하여 첫 번째 성공이 나올때 까지의 표본의 개수로 수정하면, 아래와 같은 밀도 함수가 된다.
따라서, 확률 변수 X에 대한 정의에 따라서 밀도 함수의 형태는 바뀔지 몰라도 본질적인 의미는 상통한다는 것을 기억하면 되겠다.
좀 더 풀어서 쓰면, 이항 분포나 초기하 분포 처럼 표본의 크기인 n인 미리 정해지는게 아니라, 관측의 대상이 추출된 n개의 표본들 중에서 불량품이 몇 개인지에 관심이 있는 것이 아니라, 기하 분포에서는 첫 번째 불량품이 몇 개의 추출된 표본 내에서 나오는 지에 관심이 쏠린다는 것이다.
예를 들면, 성공을 S, 실패를 F라고 할 때, 확률 변수 X를 첫 번째 성공이 일어날 때 까지 실패 횟수라고 하면, FFS 가 관측되면 X=2, FS 가 관측되면 X=1 가 된다. 이때의 확률을 각각 구해보면, X=2일 때 확률은 이고,
X=1일 때 확률은 이다.
즉, 실패의 개수가 1-p의 확률에 지수가 되면서 위의 수학적인 정의의 확률 밀도 함수와 같은 형태가 된다. 기하 분포에서는 첫 번째 성공에 관심이 있었는데, 음이항 분포에서는 그 이후의 성공에 관심이 있다.
< 음이항 분포 >
수학적인 정의는 성공 확률이 p인 베르누이 시행을 독립적으로 반복 할 때, r개의 성공을 얻을 때까지 필요한 시행횟수를 확률 변수 X로 정의 한다면, 확률 밀도 함수는 다음과 같은 형태를 지니는데 이 분포를 음이항 분포라고 한다.
좀 더 풀어서 쓰면, 앞서 기하 분포에서는 첫 번째 성공에 관심이 있다면, 음이항 분포에서는 r번째 성공에 관심이 있는 것이다. 따라서, 기하 확률 변수를 Y라고 할 때, 각각 서로 독립인 n개의 기하 확률 변수들에 관해서 음이항 확률 변수 X는 다음과 같다.
음이항 분포에 대한 표기법은 다음과 같다.
#출처: 수리통계학
|
https://freshrimpsushi.tistory.com/63
X∼Geo(p) 면
E(X)=1pVar(X)=1−pp2
기하 분포의 평균과 분산은 생각보다 쉽게 구해지지 않는다. 본 포스트에서는 유익하면서도 재미있는 두가지 증명을 소개한다.
Strategy1 : 등비 급수의 공식과 미분을 사용한다.
p∈(0,1] 에 대해 다음과 같은 확률 질량 함수를 가지는 이산 확률 분포 Geo(p) 를 기하 분포라고 한다.
p(x)=p(1−p)x−1,x=1,2,3,⋯
증명1(평균)
E(X)=∑x=1∞xp(1−p)x−1
f(p):=∑x=0∞(1−p)x 라 하면
f(p)=11−(1−p)=1p
p 에 대해 미분하면 등비 급수 공식에 따라
f′(p)=−1p2
한편 등비 급수를 그대로 미분하면
f′(p)=∑x=1∞{−x(1−p)x−1}
이기도 하므로
−1p2=−∑x=1∞x(1−p)x−1⟹1p=p∑x=1∞x(1−p)x−1⟹1p=∑x=1∞xp(1−p)x−1=E(X)
따라서 E(X)=1p
■
증명1(분산)
V(X)=E(X2)−{E(X)}2=∑x=1∞x2p(1−p)x−1−1p2
따라서 E(X2)=∑x=1∞x2p(1−p)x−1 만 구하면 된다.
마찬가지로 f(p):=∑x=0∞(1−p)x라 하면
f(p)=11−(1−p)=1pf′(p)=−1p2f″(p)=2p3
한편 f″(p)=∑x=1∞x(x−1)(1−p)x−2 이기도 하므로
2p3=∑x=1∞x(x−1)(1−p)x−2⟹2p3=∑x=1∞x2(1−p)x−2−∑x=1∞x(1−p)x−2⟹p2p3=p∑x=1∞x2(1−p)x−2−p∑x=1∞x(1−p)x−2⟹2p2=∑x=1∞x2p(1−p)x−2−∑x=1∞xp(1−p)x−2⟹2p2=11−p∑x=1∞x2p(1−p)x−1−11−p∑x=1∞xp(1−p)x−1⟹2(1−p)p2=E(X2)−1p⟹E(X2)=2−pp2
따라서 V(X)=1−pp2
■
Strategy2 : 기하 분포의 무기억성을 쓴다. 어떻게 보면 복잡한 수식을 피하고 말로 때우는 느낌이지만, 사람에 따라서는 오히려 어렵게 느낄 수도 있다.
증명2(평균)
E(X)=1⋅P( 첫번째 시행에서 성공 )+E(Y+1)⋅P(첫번째 시행에서 실패)
기댓값의 정의에 따라 첫번째 시행이 성공한 확률과 그 때의 시행횟수인 1, 첫번째 시행이 실패할 확률과 이 경우의 기댓값인 E(Y+1) 의 곱을 더한 것이 기댓값 E(X) 가 된다. 물론 여기서 등장한 Y 는 X 와 마찬가지로 Geo(p) 를 따른다. 첫 번째에 성공했든 말든 기하 분포는 무기억성을 가지므로 처음부터 시작하고, Y 에 1 을 따로 더해주는 보정을 거친 것이다. 다시 깔끔하게 적으면 다음과 같다.
E(X)=1⋅p+E(Y+1)⋅(1−p)
그런데 E(Y+1) 은 E(Y+1)=E(Y)+E(1)=E(Y)+1 으로 나타낼 수 있고, X∼Geo(p) 이고 Y∼Geo(p) 이므로
E(Y)=E(X)
E(X)=p+{E(X)+1}(1−p) 를 E(X) 에 대해서 정리하면
E(X)=1p
■
증명2(분산)
E(X2)=1⋅p+E((Y+1)2)⋅(1−p)=p+{E(X2)+2E(X)+1}(1−p)=p+E(X2)+2E(X)+1−pE(X2)−2pE(X)−p
깔끔하게 정리하면
0=2E(X)+1−pE(X2)−2pE(X)
2차 적률을 이항하면
pE(X2)=2(1−p)E(X)+1=2(1−p)1p+1=2−pp
양변을 p 로 나누면
E(X2)=2−pp2
따라서 V(X)=1−pp2
'통계 빠개기 > Statistics' 카테고리의 다른 글
[Overview] 확률 분포 (0) | 2020.05.21 |
---|---|
[Distribution] 확률 분포 간 관계도 (0) | 2020.05.20 |
[Video] 이산 확률 분포_ 기하분포, 음이항분포, 초기하분포 (0) | 2020.05.20 |
[이산 확률 분포] 베르누이, 이항, 포아송 분포 (0) | 2020.05.20 |
정규성 검토 - Q-Q(Quantile - Quantile) Plot (0) | 2020.05.20 |