[Distribution] Geometric, Negative Binomial의 정의, 기대값, 분산

2020. 5. 20. 15:56통계 빠개기/Statistics

 

< 기하 분포 > 

 

수학적인 정의는   

확률 변수 X의 밀도 함수가

 

 

 

로 주어지고 모수가 p인 분포를 뜻한다.

사실 위의 밀도 함수의 확률 변수 X는 첫 번째 성공이 나올 때 까지의 실패 횟수를 의미하는데,

확률 변수를 조금 변형하여 첫 번째 성공이 나올때 까지의 표본의 개수로 수정하면, 아래와 같은

밀도 함수가 된다.

 

 

 

따라서, 확률 변수 X에 대한 정의에 따라서 밀도 함수의 형태는 바뀔지 몰라도 본질적인 의미는 상통한다는 것을 기억하면 되겠다.

 

좀 더 풀어서 쓰면,

이항 분포나 초기하 분포 처럼 표본의 크기인 n인 미리 정해지는게 아니라, 관측의 대상이 추출된 n개의 표본들 중에서

불량품이 몇 개인지에 관심이 있는 것이 아니라, 기하 분포에서는 첫 번째 불량품이 몇 개의 추출된 표본 내에서 나오는

지에 관심이 쏠린다는 것이다.

 

예를 들면,

성공을 S, 실패를 F라고 할 때, 확률 변수 X를 첫 번째 성공이 일어날 때 까지 실패 횟수라고 하면,

FFS 가 관측되면 X=2, FS 가 관측되면 X=1 가 된다.

이때의 확률을 각각 구해보면,

X=2일 때 확률은  이고,

 

X=1일 때 확률은  이다.

 

즉, 실패의 개수가 1-p의 확률에 지수가 되면서 위의 수학적인 정의의 확률 밀도 함수와 같은 형태가 된다.

기하 분포에서는 첫 번째 성공에 관심이 있었는데, 음이항 분포에서는 그 이후의 성공에 관심이 있다.

 

 

< 음이항 분포 >

 

수학적인 정의는

성공 확률이 p인 베르누이 시행을 독립적으로 반복 할 때, r개의 성공을 얻을 때까지 필요한 시행횟수를 확률 변수 X로 정의 한다면,

확률 밀도 함수는 다음과 같은 형태를 지니는데 이 분포를 음이항 분포라고 한다.

 

 

 

좀 더 풀어서 쓰면,

앞서 기하 분포에서는 첫 번째 성공에 관심이 있다면, 음이항 분포에서는 r번째 성공에 관심이 있는 것이다.

따라서, 기하 확률 변수를 Y라고 할 때, 각각 서로 독립인 n개의 기하 확률 변수들에 관해서 음이항 확률 변수 X는 다음과 같다.

 

 

 

음이항 분포에 대한 표기법은 다음과 같다.

 

 

 

#출처: 수리통계학

 

 

 

[이산형 분포] 기하 분포 (Geometric Distribution), 음이항 분포 (Negative Binomial Distribution) 란?

< 기하 분포 > 수학적인 정의는 확률 변수 X의 밀도 함수가 로 주어지고 모수가 p인 분포...

blog.naver.com

https://freshrimpsushi.tistory.com/63

 

기하 분포의 평균과 분산 Mean and Variance of Geometric Distribution

$X \sim \text{Geo} (p)$ 면 $$E(X) = {{ 1 } \over { p }} \\ \text{Var}(X) = {{ 1-p } \over { p^{2} }}$$ 기하 분포의 평균과 분산은 생각보다 쉽게 구해지지 않는다. 본 포스트에서는 유익하면서도 재미있는..

freshrimpsushi.tistory.com

 

X∼Geo(p) 

E(X)=1pVar(X)=1−pp2

 

 

기하 분포의 평균과 분산은 생각보다 쉽게 구해지지 않는다. 본 포스트에서는 유익하면서도 재미있는 두가지 증명을 소개한다.

 

Strategy1 : 등비 급수의 공식과 미분을 사용한다.

 

기하 분포의 정의

p∈(0,1] 에 대해 다음과 같은 확률 질량 함수를 가지는 이산 확률 분포 Geo(p)  기하 분포라고 한다.

p(x)=p(1−p)x−1,x=1,2,3,⋯

 

증명1(평균)

E(X)=∑x=1∞xp(1−p)x−1

f(p):=∑x=0∞(1−p)x 라 하면

f(p)=11−(1−p)=1p

p 에 대해 미분하면 등비 급수 공식에 따라

f′(p)=−1p2

한편 등비 급수를 그대로 미분하면

f′(p)=∑x=1∞{−x(1−p)x−1}

이기도 하므로

−1p2=−∑x=1∞x(1−p)x−1⟹1p=p∑x=1∞x(1−p)x−1⟹1p=∑x=1∞xp(1−p)x−1=E(X)

따라서 E(X)=1p

 

증명1(분산)

V(X)=E(X2)−{E(X)}2=∑x=1∞x2p(1−p)x−1−1p2

따라서 E(X2)=∑x=1∞x2p(1−p)x−1 만 구하면 된다.

 

마찬가지로 f(p):=∑x=0∞(1−p)x라 하면

f(p)=11−(1−p)=1pf′(p)=−1p2f″(p)=2p3

한편 f″(p)=∑x=1∞x(x−1)(1−p)x−2 이기도 하므로

2p3=∑x=1∞x(x−1)(1−p)x−2⟹2p3=∑x=1∞x2(1−p)x−2−∑x=1∞x(1−p)x−2⟹p2p3=p∑x=1∞x2(1−p)x−2−p∑x=1∞x(1−p)x−2⟹2p2=∑x=1∞x2p(1−p)x−2−∑x=1∞xp(1−p)x−2⟹2p2=11−p∑x=1∞x2p(1−p)x−1−11−p∑x=1∞xp(1−p)x−1⟹2(1−p)p2=E(X2)−1p⟹E(X2)=2−pp2

따라서 V(X)=1−pp2

 

Strategy2 : 기하 분포의 무기억성을 쓴다. 어떻게 보면 복잡한 수식을 피하고 말로 때우는 느낌이지만, 사람에 따라서는 오히려 어렵게 느낄 수도 있다.

 

증명2(평균)

E(X)=1⋅P( 첫번째 시행에서 성공 )+E(Y+1)⋅P(첫번째 시행에서 실패)

기댓값의 정의에 따라 첫번째 시행이 성공한 확률과 그 때의 시행횟수인 1, 첫번째 시행이 실패할 확률과 이 경우의 기댓값인 E(Y+1) 의 곱을 더한 것이 기댓값 E(X) 가 된다. 물론 여기서 등장한 Y  X 와 마찬가지로 Geo(p) 를 따른다. 첫 번째에 성공했든 말든 기하 분포는 무기억성을 가지므로 처음부터 시작하고, Y  1 을 따로 더해주는 보정을 거친 것이다. 다시 깔끔하게 적으면 다음과 같다.

E(X)=1⋅p+E(Y+1)⋅(1−p)

그런데 E(Y+1)  E(Y+1)=E(Y)+E(1)=E(Y)+1 으로 나타낼 수 있고, X∼Geo(p) 이고 Y∼Geo(p) 이므로

E(Y)=E(X)

E(X)=p+{E(X)+1}(1−p)  E(X) 에 대해서 정리하면

E(X)=1p

 

증명2(분산)

E(X2)=1⋅p+E((Y+1)2)⋅(1−p)=p+{E(X2)+2E(X)+1}(1−p)=p+E(X2)+2E(X)+1−pE(X2)−2pE(X)−p

깔끔하게 정리하면

0=2E(X)+1−pE(X2)−2pE(X)

2차 적률을 이항하면

pE(X2)=2(1−p)E(X)+1=2(1−p)1p+1=2−pp

양변을 p 로 나누면

E(X2)=2−pp2

따라서 V(X)=1−pp2