확률 변수와 확률 분포
이전 포스팅 참조 : 확률의 공리, 조건부 확률, 독립 / 함수란 무엇인가?
확률 변수(Random Variable)
확률 변수란 표본 공간 안의 원소를 특정 실수 값으로 보내는 함수입니다. 좀 더 엄밀한 정의는 Measure 이론의 한 분야로 굉장히 어렵고 복잡해서 위 설명대로만 받아들이는 게 마음건강에 좋습니다. 예를 들어봅시다.
우리가 동전 던지기 실험을 한다고 합시다. 이때 표본 공간은 동전의 앞(Head) 혹은 뒤(Tail)로 이루어진 집합이 될 겁니다. 하지만 우리는 위 두 단어를 쓰는 대신에 숫자로 각각을 대응시킬 수 있습니다. 앞 -> +1, 뒤 -> -1 이렇게 말이죠.
그러나 우리는 가끔 표본 공간 안의 값 그 자체에 관심이 없을 수도 있습니다. 예를 들어 주사위 두 개를 굴렸을 때 각 눈금의 합이 궁금할 수도 있습니다. 이 경우 두 개 눈금을 순서쌍으로 표시하고 (ex. (1,1), (1,2), $\cdots$, (5,6), (6,6)) 하나의 집합으로 묶으면 그것이 표본 공간이 됩니다. 그리고 두 눈금의 합들을 모아놓은 집합을 만들고 각 원소들을 매칭 시킬 때, 매칭 시키는 함수를 '확률 변수'라고 부릅니다.
여기서 착각하지 말아야할 점이 확률 변수는 함수라는 점입니다. 공부하다보면 $[X = x]$ 라는 표현을 많이 볼텐데, 이는 마치 $X$라는 집합 안에서 $x$를 뽑아오라는 것처럼 보이지만, 사실은 $X$라는 함수의 값(value) $x$를 만족하는 모든 원상(preimage)들의 집합을 의미합니다. 따라서 다음과 같이 쓸 수 있습니다. $$[X = x] = \{ s \in S | X(s) = x \}.$$따라서, 이는 표본 공간안의 특정 부분 집합이니, 사건(event)을 의미합니다.
결론적으로 $P[X=x]$ 는 $[X=x]$라는 사건이 일어날 확률을 말합니다.
이산형(Discrete) vs 연속형(Continuous) 확률 변수
표본 공간안의 원소가 이산형(discrete)이냐 연속형(continuous)이냐에 따라서 확률을 기술하는 방법이 달라집니다. 확률 변수가 취하는 값이 자연수 $\mathbf{N}$과 1대 1 대응인 경우를 '이산형'이라 말하고 (이를 'Countable'이라고 부릅니다) 그렇지 않은 경우를 '연속형'이라고 부릅니다. 예를 들면, 위의 문제처럼 주사위 각 눈금의 합을 대응시키는 확률 변수의 경우, 자연수 1~12와 1대 1 대응시킬 수 있기 때문에 이산형 확률 변수입니다. 반대로 전구의 수명을 확률 변수로 가지는 경우, 확률 변수의 원소는 모든 양의 실수($\mathbf{R^+}$)가 되고, 이는 $\mathbf{N}$과 1대 1 대응을 시킬 수 없습니다. (왜냐면 아무리 $\mathbf{R}$안의 원소를 계속 뽑아 $\mathbf{N}$과 대응을 시킨다한들 $\mathbf{R}$의 두 원소 사이에는 무조건 다른 원소가 계속 존재하기 때문에 모든 원소들을 $\mathbf{N}$과 매칭 시킬 수 없습니다. 사실 꽤 재밌게 증명이 되는데 나중에 한 번 풀어보겠습니다) 따라서 이 경우는 연속형 확률 변수가 됩니다.
확률 분포 함수(Probability Distribution Function)
이산형이냐 연속형이냐에 따라서 각 확률 변수들이 가지는 확률 함수의 모양이 바뀌게 됩니다. 이산형의 확률 변수의 경우, 각 원소에 확률 값을 하나씩 할당해도 모두 더하면 1을 맞출 수 있습니다. 하지만 연속형 확률 변수의 경우, 각 원소에 아무리 작은 확률값을 할당하더라도 원소의 개수가 무한하기 때문에 모두 더하면 1을 넘어가게 됩니다. (심지어 $\infty$...) 따라서 이 경우에는 두 개의 원소 사이의 적분으로 두 원소 사이 값을 얻을 확률을 구하게 됩니다. 아래에서 더 자세히 알아보도록 하겠습니다.
확률 질량 함수(Probability Mass Function)
이산형 확률 변수 $X$의 값 $x_i$에 대해서 $f(x_i)$를 표본 공간 안의 원소 $s$가 $[X = x_i]$에 속할 확률이라고 한다면, $f(x)$를 $X$의 '확률 질량 함수'라고 부릅니다. 확률 질량 함수는 다음 두 가지 성질을 만족합니다.
$$ \begin{align} 1. & \quad 0 \leq f(x_i) \nonumber \\ 2. & \quad \sum_{i=1}^{n} f(x_i) = 1. \nonumber \end{align}$$
확률 밀도 함수(Probability Density Function)
$X$가 만약 연속형 확률 변수라면, $X$가 가질 수 있는 구간에서의 함수 $f(x)$가 다음을 만족할 때,
$$ \int_{a}^{b} f(x) dx = P[a \leq X \leq b], \quad \text{단, } -\infty < a < b < \infty $$
$f(x)$를 $X$의 '확률 밀도 함수'라고 부르고, ($P[a \leq X \leq b]$는 표본 공간 안의 원소 $s$에 대해서 $X[s]$가 $a, b$사이에 속할 확률을 말합니다.) 아래 두 가지 성질을 만족합니다.
$$ \begin{align} 1. & \quad 0 \leq \int_{a}^{b} f(x) dx \leq 1 \nonumber \\ 2. & \quad \int_{-\infty}^{\infty} f(x) dx = 1. \end{align} $$
왜 질량과 밀도라는 이름이 붙었는가에 대해 잠시 생각해본다면... 확률을 질량에 대응시켰을 때, 질량 함수는 어떤 확률 변수 값이 딱 주어졌을 때의 확률(질량) 값이 바로 대응되는 반면, 밀도 함수는 확률 변수 값이 주어지면 그 위치의 함숫값이 확률(질량) 값에 바로 대응되는 것이 아닌 그 주변부의 면적 값으로 확률(질량) 값이 대응되기 때문입니다. 이런 성질이 마치 어떤 밀도를 가진 물체의 특정 부위의 질량을 알기 위해서는 그 부위의 밀도와 부피 값을 곱한 것과 형태가 같기 때문에 밀도 함수라는 이름이 붙은 겁니다.