확률의 공리, 조건부 확률, 독립
확률 모형 (Probability Model)
시행을 반복할 때마다 나오는 결과가 우연에 의존하여 매번 달라지는 현상 또는 실험(확률 실험, random experiment)에 대한 수리적 모형을 의미합니다. 실험을 통해 수집, 관측된 데이터가 따르는 확률 분포의 형태, 평균값, 분산 등을 통틀어 확률 모형이라 부릅니다. 고로 어떤 실험에 대해 분석을 하고 다음 데이터를 추측하기 위해 해당 실험의 데이터들이 어떤 확률 모형을 따르는지 파악하는 것이 아주 중요합니다.
표본 공간 (Sample Space)
확률 실험에서 모든 관찰 가능한 '결과(Outcomes)'의 집합을 의미합니다. 보통 $S$ 로 표기합니다.
ex) 주사위를 굴릴 때 가능한 주사위 눈금 수의 집합
$S = \{1, 2, \cdots , 6\}$.
전구의 수명
$S = \{ t | t \in \mathbf{R}^{+} \} \cdots $ 모든 양의 실수.
사건 (Event)
표본 공간의 임의의 부분 집합을 의미합니다.
ex) 주사위를 굴릴 때 3 이상일 사건
$S' = \{ 3, 4, 5, 6 \}$
확률 - Laplace의 고전적 정의
$N$ 개의 실험 결과로 구성된 표본 공간 $S = \{ e_1, e_2, \cdots, e_N \}$ 에서 각각의 실험 결과가 일어날 가능성이 같은 경우에 원소의 개수가 $n(A)$인 특정 사건 $A$안의 결과가 일어날 확률을 다음과 같이 정의합니다. (위에 썼듯이 보다 정확히 말하면 $A$안의 결과가 일어날 확률이지만, 편의상 $A$가 일어날 확률이라고 혼용해서 쓰겠습니다.)
$$ \begin{align} P(A) = n(A)/N. \end{align} \nonumber $$
하지만 표본 공간의 원소의 개수가 무한하거나 각 실험 결과가 일어날 확률이 같지 않으면 위 정의로는 확률을 설명할 수 없습니다. 예를 들면, 전구의 수명을 측정하는 실험에서 표본 공간은 모든 양의 실수를 원소로 가지기 때문에 $N \rightarrow \infty$ 이 되므로 $P(A) \rightarrow 0$이 되는 경우가 발생합니다. 또 예를 들어 주사위에 6 대신 1이 하나 더 있다고 한다면 표본 공간은 $S = \{ 1, 2, 3, 4, 5 \}$가 되고 위 정의대로라면 1이 나올 확률은 $n(S = 1)/N = 1/5$가 될 겁니다. 하지만 실제로는 1이 나올 가능성 자체가 더 높기 때문에 위 고전적 정의는 아무 의미가 없어집니다.
확률 - 상대적 비율에 의한 접근 (Richard Von Miles)
위 문제를 해결하기 위해 전체 반복 횟수 중 내가 관심 있는 사건이 발생한 횟수인 상대 도수(Relative Frequency)를 통해 확률을 다시 정의합니다. 상대 도수란 각 변량(변하는 양)의 도수(반복되는 횟수)를 전체 횟수로 나눈 것을 말합니다. 다시 말하면, $n$ 번 반복된 실험 중 사건 $A$안의 결과가 발생한 횟수를 $m$이라 한다면 $m/n$을 $A$의 상대 도수라고 말합니다.
상대 도수의 시행 횟수의 극한값으로 '상대적 비율에 의한 확률'을 아래와 같이 정의할 수 있습니다.
$$\begin{align} P(A) = \lim_{n \rightarrow \infty} \frac{m}{n} \end{align}. $$
확률의 공리
이후에 Kolmogorov, Cox 등이 확률을 수학적으로 정립하게 되었는데, 두 관점 모두 아래 3가지 공리를 따릅니다.
1. 모든 사건 $A \subset S$ 에 대해서 $0 \leq P(A) \leq 1$를 만족한다.
2. $P(S) = 1$ 을 만족한다.
3. 만약 $A_i, A_j \subset S$ 에 대해서 $A_i \cap A_j = \varnothing$라면, $P(A_1 \cup A_2 \cup \cdots ) =P(A_1) + P(A_2) + \cdots$ 를 만족한다.
조건부 확률(Conditional Probability)
사건 $A$와 $B$가 표본 공간 $S$상에 정의되어 있으며 $P(B)>0$라면, $B$가 일어났을 때 $A$가 일어날 확률은 아래와 같이 씁니다.
$$\begin{align} P(A|B) = \frac{P(A\cap B)}{P(B)} \end{align}$$
$B$의 결과가 우리가 원하는 관심사건의 확률을 계산하기 위한 새로운 표본 공간이 되기 때문에 $B$가 일어날 확률을 기준으로 그 안에서 $A$가 일어날 확률을 구하기 위해 위와 같은 분수식으로 표현됩니다.
ex) 주사위를 굴렸을 때 나온 눈금이 짝수라면, 이 눈금이 2일 확률은?
pf) $A = 2$가 나올 경우, $B=$짝수가 나올 경우라고 한다면,
$$\begin{align} P(A) = \frac{1}{6} = P(A\cap B), \quad P(B) = \frac{3}{6} = \frac{1}{2} \end{align}$$ 이기 때문에, (이 경우는 2가 나올 확률과 짝수이면서 2일 확률은 같다)
$$P(A|B) = \frac{P(A\cap B)}{P(B)} = \frac{1/6}{1/2} = \frac{1}{3}$$
와 같습니다.
통계적 독립(Independence)
두 사건 $A$와 $B$가 다음 중 하나를 만족하면 '$A$와 $B$는 서로 독립이다.'라고 말합니다. (단, $P(A) > 0, P(B) > 0$)
1. $P(A|B) = P(A)$
2. $P(A\cap B) = P(A) \cdot P(B)$
3. $P(B|A) = P(B)$
위 조건이 만족되면 $A$, $B$의 순서를 바꾼 $P(B|A)=P(B)$도 성립함을 보일 수 있는데 이를 통해 독립이라는 관계는 두 사건에 대해 대칭이 된다는 것을 알 수 있습니다.
ex) 통계 과목 점수가 90점 이상인 학생($A$)의 비율이 1/5, 수학 과목 점수가 90 이상인 학생($B$)의 비율이 1/4, 두 과목 점수 모두 90 이상인 학생($A\cap B$)의 비율이 1/20 일 때, 통계 점수가 90점 이상일 사건과 수학 점수가 90점 이상일 사건은 서로 독립입니다.
$$(\because) \, P(A\cap B) = \frac{1}{20} = \frac{1}{5} \cdot \frac{1}{4} = P(A)\cdot P(B).$$