본문 바로가기
Mathmetics/Statistics

확률 분포 함수 : 베르누이 분포, 이항 분포

by 방구석 과학자 2022. 4. 10.

 

 

이전 포스팅 참조 : 결합 분포기댓값, 분산, 표준편차, 분위수

베르누이 시행(Bernoulli Trial)

나올 수 있는 결과가 오직 2가지 경우만 존재하는 실험을 의미합니다. 예를 들면, 동전을 던져 앞면 혹은 뒷면을 확인하는 실험은 결과가 '앞' 혹은 '뒤'만 있으므로 베르누이 시행입니다. 편의를 위해 결과를 성공(1)과 실패(0)만 존재한다고 가정하겠습니다.

 

베르누이 분포(Bernoulli Distribution)

베르누이 시행이 따르는 분포를 베르누이 분포라고 말합니다. 성공할 확률을 $p$($0 \leq p \leq 1$) 라고 했을 때,  아래와 같이 쓸 수 있습니다. $$ X = \left\{ \begin{array}{ll} 1 & \text{성공} \\ 0 & \text{실패} \end{array} \right.$$ $$ f(x) = P(X = x) = \left\{ \begin{array}{ll} p & X=1\text{인 경우} \\ 1-p & X=0 \text{인 경우} \end{array} \right.$$

 

베르누이 실험(Bernoulli Process)

베르누이 실험이란,

1. 서로 독립이고,
2. 성공할 확률이 모두 $p$로 동일한, 같은 베르누이 분포를 따르는 베르누이 시행의 연속적인 실험

을 말합니다. 예를 들면 하나의 동전을 수차례 던지는 실험이 있습니다. 왜냐하면, 첫번째로 서로 다른 차례의 동전 던지기는(베르누이 시행은) 서로 독립입니다. 정말 독립인지 생각해봅시다. 서로 다른 두 번의 동전 던지기를 생각해봤을 때, 각 시도를 확률 변수 $X$, $Y$에 대응시켜 봅시다. 앞면을 1, 뒷면을 0으로 대응시키면 아래와 같이 결합 확률 분포표로 나타낼 수 있습니다. 이때, $P_x(x)$, $P_y(y)$는 주변 확률 분포 함수입니다.

  X $P_y(y)$
1 0
Y 1 1/4 1/4 1/2
0 1/4 1/4 1/2
$P_x(x)$ 1/2 1/2  

모든 $x, y$에 대해서 $$ \begin{align} P(X=x | Y=y) & = \frac{P(X = x, Y = y)}{P_y(y)} \nonumber \\ & = \frac{1}{4}\cdot \frac{1}{1/2} \nonumber \\ & = 1/2 \nonumber \\ & = P_x(x) \end{align} $$를 만족하므로 동전 던지기는 서로 독립이 됩니다. 두 번째로 동전 던지기(베르누이 시행)는 성공할 확률이 모두 1/2로 동일하므로, 같은 베르누이 분포를 따릅니다. 따라서 동전을 연속적으로 던지는 실험은 베르누이 실험이 됩니다.

 

그렇다면 n번의 베르누이 시행을 하는 베르누이 실험에서 $k$번 성공할 확률은 어떻게 될까요? 이를 계산하기 위해 이항 분포를 알아봅시다.

 

이항 분포(Binomial Distribution)

시행 횟수가 n번이고 성공할 확률이 $p$인 베르누이 실험에서 $k$번 성공할 확률은 아래와 같고 이를 '이항 분포'라 부릅니다. $$ \frac{n!}{k! \cdot (n-k)!} p^k (1-k)^{n-k} = \left( \begin{array}{c} n \\ k \end{array} \right) p^k (1-p)^{n-k}. $$이 때, $\frac{n!}{k! \cdot (n-k)!} = \left( \begin{array}{c} n \\ k \end{array} \right)$로 표기할 수 있으며, 이를 '이항 계수(Binomial Coefficient)'라고 부릅니다.

유도 과정

예를 들어 5번 동전을 던지는 실험을 한다고 합시다. 앞면을 성공(1), 뒷면은 실패(0)이라 할 때, 성공이 3번 나오는 경우를 아래와 같이 표현할 수 있습니다. $$ \left. \begin{array}{ccccc} (1&1&1&0&0) \\ (1&1&0&1&0) \\ (1&1&0&0&1) \\ (1&0&1&1&0) \\ (1&0&1&0&1) \\ (1&0&0&1&1) \\ (0&1&1&1&0) \\ (0&1&1&0&1) \\ (0&1&0&1&1) \\ (0&0&1&1&1) \end{array} \,\, \right\}\,\, 10\text{개}$$ 각각의 경우가 나올 확률은 모두 $p^3 (1-p)^2$으로 동일합니다. 또한 각 경우는 서로 같이 일어날 수 없으므로 배반 사건입니다. 따라서 앞면이 3번 나올 확률은 각 경우의 확률을 모두 더하면 되므로 $10\cdot p^3 (1-p)^2$입니다.

하지만 위 경우를 일일히 다 나열하여 개수를 셀 수는 없습니다. (10번 중 3번의 성공이 나오는 경우만해도 120개를 나열해야 합니다..) 다음과 같이 생각해봅시다. 

1~5까지의 숫자를 나열하는 경우의 수는 $5!$입니다. (1번째 자리에 들어갈 수 있는 숫자 5개 $\times$ 2번째 자리에 들어갈 수 있는 숫자 (5-1)개 $\times \cdots \times$ 5번째 자리에 들어갈 수 있는 숫자 (5-4)개) 만약 1, 2, 3이 성공이 나왔다고 한다면, 아래와 같이 표현할 수 있습니다. 성공(1)과 실패(0)와 헷갈리지 않게 각 숫자는 프라임(')을 붙이겠습니다. $$ \left( \begin{array}{ccccc} 1'&2'&3'&4'&5' \\ 1&1&1&0&0  \end{array} \right). $$이때, 성공한 1, 2, 3번이 서로 구별이 불가능하다면, $$ \begin{align} & \left( \begin{array}{ccccc} 1'&1'(=2')&1'(=3')&4'&5' \\ 1&1&1&0&0  \end{array} \right) \nonumber \\ & \left( \begin{array}{ccccc} 1'&1'(=3')&1'(=2')&4'&5' \\ 1&1&1&0&0  \end{array} \right) \nonumber \\ & \left( \begin{array}{ccccc} 1'(=2')&1'&1'(=3')&4'&5' \\ 1&1&1&0&0  \end{array} \right) \nonumber \\ & \left( \begin{array}{ccccc} 1'(=2')&1'(=3')&1'&4'&5' \\ 1&1&1&0&0  \end{array} \right) \nonumber \\ & \left( \begin{array}{ccccc} 1'(=3')&1'&1'(=2')&4'&5' \\ 1&1&1&0&0  \end{array} \right)  \nonumber \\ & \left( \begin{array}{ccccc} 1'(=3')&1'(=2')&1'&4'&5' \\ 1&1&1&0&0  \end{array} \right) \end{align} $$ $3! = 6$개의 경우는 모두 같은 경우가 됩니다. 따라서 총경우의 수 $5!$에서 성공(1)하는 경우의 위치를 구별할 수 없다면, 성공(1)의 위치가 같은 경우가 $3!=6$개씩 묶이므로, $5!$을 $3!$개 씩 묶어주는 경우의 수로 총경우의 수가 줄어들게 됩니다. 따라서 이때의 구별 가능한 총경우의 수는 $\frac{5!}{3!}$개가 됩니다. 

실패(0)를 구별할 수 없는 경우에도 상황은 동일하며, 위 상황같은 경우 총실패의 개수는 $2!=2$개 이므로 줄어든 총경우의 수를 다시 $2!$개 씩 묶어주면 성공(1)과 실패(0)를 구별할 수 없는 상황에서의 총개수를 구할 수 있습니다. 따라서 구별 가능한 총경우의 수는 $\frac{5!}{3! \cdot 2!}$이 됩니다. 

결론적으로, $n$번의 베르누이 시행 중 $k$번 성공할 경우의 수는 $\frac{n!}{k! (n-k)!}$입니다. 따라서, 성공할 확률이 $p$라면, $k$번 성공할 확률은 $\frac{n!}{k! (n-k)!} p^k(1-p)^{n-k}$가 됩니다.

결론

총 시행 횟수가 $n$이고 성공 확률이 $p$인 베르누이 실험에서 성공할 횟수를 나타내는 이산형 확률 변수 $X$는 성공(1)과 실패(0)로 이루어진 각 베르누이 시행 $X_i, i \in \{ 1, \cdots, n\}$들이 가지는 원소들의 합으로 쓸 수 있고, 따라서 $X$는 0~n 사이의 값을 가집니다. 이는 Minkowski sum 을 통해 아래와 같이 쓸 수 있습니다. $$ X = \sum_{i=1}^{n} X_i = \{0, 1, \cdots n\} $$ 이 때 $X$의 각 값을 얻을 확률은 이항 분포를 따르며 다음과 같이 표기하고 $$ X \sim Bin(n, p) $$아래와 같은 그래프를 그리게 됩니다.

$X \sim Bin(n, p)$일 때, x번 성공할 확률 $\left( \begin{array}{c} n \\ x \end{array} \right) p^x (1-p)^{n-x}$ 을 보여주는 그래프 (출처 : 위키피디아)

 

이항 분포를 따르는 확률 변수의 기댓값

기댓값의 선형성을 통해 $X$의 기댓값을 구할 수 있습니다. 모든 $i$에 대해서 $E(X_i) = 0\cdot (1-p) + 1 \cdot p = p$이므로, $$ \begin{align} E(X) = & E(X_1 + X_2 + \cdots + X_n) \nonumber \\ = & E(X_1) + E(X_2) + \cdots E(X_n) \nonumber \\ = & \underbrace{p + p + \cdots p}_{n} \nonumber \\ = & np. \end{align} $$

이항 분포를 따르는 확률 변수의 분산

각 $X_i$의 분산을 먼저 구해봅시다.$$ \begin{align} V(X_i) & = E((X_i - E(X_i))^2) \nonumber \\ & = E((X_i - p)^2) \nonumber \\ & = E(X_i^2 -2X_i p + p^2) \nonumber \\ & = E(X_i^2) -2pE(X_i) + p^2 \nonumber  \\ & = E(X_i^2) - p^2 \nonumber \\ & = 0^2 \cdot 0 + 1^2 \cdot p -p^2 \nonumber \\ & = p(1-p). \nonumber \end{align}$$각 $X_i$는 서로 독립이므로, $X$의 분산은 아래와 같습니다. $$ \begin{align} V(X) & = V(X_1 + X_2 + \cdots + X_n) \nonumber \\ & = V(X_1) + V(X_2) + \cdots V(X_n) \nonumber \\ & = \underbrace{p(1-p) + \cdots + p(1-p)}_{n} \nonumber \\ & = np(1-p). \nonumber \end{align} $$

 

반응형

댓글