본문 바로가기
Mathmetics/Statistics

기댓값, 분산, 표준편차, 분위수

by 방구석 과학자 2022. 3. 21.

 

 

이전 포스팅 참조 : 확률 변수와 확률 분포

어떤 확률 변수와 확률 분포 함수가 주어졌다면, 그 분포가 어디쯤 위치하는지, 어떤 모양을 가지고 있는지 등이 궁금할 겁니다. 오늘은 이를 파악하기 위한 여러 가지 통계적 지표들에 대해서 알아보도록 하겠습니다.

 

기댓값(Expectation Value)

기댓값이란, 분포의 무게중심, 중심 위치를 나타내는 값을 의미합니다. 무수히 많은 실험을 통해 해당 분포에서 나온 값들을 무수히 많이 관찰한다면, 기댓값은 그 값들의 평균에 대응됩니다. 확률 분포 함수 $f(x)$를 가지는 확률 변수 $X$의 기댓값은 다음과 같이 정의됩니다.

$$\begin{align} E(X) = \mu = \left\{ \begin{array}{l} \sum_{all\,x} xf(x), \,\, X\text{는 이산형} \\ \int_{-\infty}^{\infty} xf(x)dx, \,\, X\text{는 연속형.} \end{array} \right. \end{align}$$

기댓값의 성질

$a, b \in \mathbf{R}$, 확률 변수 $X, Y$에 대해서 기댓값은 아래와 같은 성질을 만족합니다.

$$ \begin{align} 1. \quad & E(aX+b) = aE(X) + b \nonumber \\ 2. \quad & E(X+Y) = E(X) + E(Y) \nonumber \end{align} $$

증명은 이산형, 연속형 모두 비슷하게(거의 동일하게) 가능합니다.

 

pf) 1. 이산형의 경우 아래와 같이 증명할 수 있습니다. $$ \begin{align} \quad E(aX+b) & = \sum_x (ax+b)f(x) \nonumber \\ & = a\sum_x xf(x) + b\sum_x f(x) \nonumber \\ & = a E(X) + b. \quad \left( \because \sum_x f(x) = 1 \right) \nonumber \end{align} $$ 연속형의 경우에도 동일하게 증명할 수 있습니다. $$ \begin{align} E(aX+b) & = \int_{-\infty}^{\infty} (ax + b)f(x) dx \nonumber \\ & = a\int_{-\infty}^{\infty}xf(x) dx + b \int_{-\infty}^{\infty} f(x) dx \nonumber \\ & = aE(X) + b. \quad \left( \because \int_{-\infty}^{\infty} f(x) dx = 1 \right) \nonumber \end{align} $$

2. $X + Y$의 산포가 어떤 모양인지, 어떤 성질을 가지고 있는지를 생각해야 합니다. $X=x$, $Y = y$일 때, 확률 분포 함수의 값을 $f(X =x, Y = y)$라고 합시다. (이는 단순히 $X$, $Y$두 확률 변수가 가지는 확률 분포 값을 더한 값이 아니라는 것을 알아야 합니다. 그런 식으로 생각을 하면 $X + Y$의 전체 확률은 1을 넘어가기 때문입니다) 이때 $P(X=x, Y=y)$는 아래와 같은 성질을 만족합니다. $$ \sum_y P(X = x, Y = y) = P(X = x). $$ $X = x$일 때, $Y$가 가질 수 있는 모든 확률을 더하면 이는 단순히 $X$가 따르는 확률 분포 함수에서 $X=x$가 나올 확률을 의미합니다. $X=x$에서 $Y$가 가질 수 있는 값들로 분산되었던 확률들을 다시 다 더했기 때문입니다. 따라서 증명은 다음과 같습니다. $$ \begin{align} E(X+Y) & = \sum_{x, y} (x+y)P(X=x, Y=y) \nonumber \\ & = \sum_{x, y}xP(X=x, Y=y) + \sum_{x, y}yP(X=x, Y=y) \nonumber \\ & = \sum_x x \sum_y P(X=x, Y=y) + \sum_y y \sum_x P(X=x, Y=y) \nonumber \\ & = \sum_x x P(X=x) + \sum_y y P(Y=y) \nonumber \\ & = E(X) + E(Y). \nonumber \end{align} $$ 연속형의 경우도 역시 동일합니다. $$ \begin{align} E(X + Y) & = \iint_{-\infty}^{\infty} (x+y)f(X=x, Y=y) dx dy \nonumber \\ & = \iint_{-\infty}^{\infty} xf(X=x, Y=y) dxdy + \iint_{-\infty}^{\infty} yf(X=x, Y=y) dxdy \nonumber \\ & = \int_{-\infty}^{\infty} x \int_{-\infty}^{\infty} f(X=x, Y=y) dydx + \int_{-\infty}^{\infty} y \int_{-\infty}^{\infty} f(X=x, Y=y) dxdy \nonumber \\ & = \int_{-\infty}^{\infty} xf(X=x) dx + \int_{-\infty}^{\infty} yf(Y=y) dy \nonumber \\ & = E(X) + E(Y). \end{align} $$

 

 

분산, 표준편차(Variance, Standard Deviation)

분포가 어느 정도 퍼져있는지를 나타내는 척도로써 분산과 표준편차를 정의할 수 있습니다. 분포의 중심인 기댓값으로부터 확률 변수들이 어느 정도 떨어져 있는지를 구하기 위해서 가장 쉽게 생각할 수 있는 건 기댓값과 확률 변수들의 차를 구하는 것입니다. 그러나, 기댓값 - 확률 변수는 양수와 음수가 함께 나올 수 있고, 이를 종합적으로 판단하기 위해 값들을 모두 더하면 0이 되어버립니다. 따라서, 이를 방지하기 위해 기댓값 - 확률 변수의 제곱을 이용하면, 모든 값들이 양수가 될 것이고, 이를 모두 더해도 값이 0이 되는 상황을 피할 수 있습니다.

 

어떤 확률 변수 $X$에 대해 분산은 $V(X)$, $\sigma^2(X)$으로 표기하고 정의는 다음과 같습니다.$$V(X) = \sigma^2(X) = E((X-\mu)^2).$$

분산 100 (빨강) vs 분산 2500 (파랑) 의 분포 모양 / 출처 : 위키피디아

여기서 한 가지 문제점이 있는데, 분산은 확률 변수가 가지는 '차원(dimension)'과 다르다는 겁니다. 예를 들어 어떤 집단의 몸무게를 나타내는 확률 변수가 있다고 하면, 확률 변수의 값이나 기댓값의 차원은 kg인 반면, 분산은 제곱을 하기 때문에 차원이 kg$^2$이 됩니다. 따라서 수치가 어느 정도인지 감으로 파악하기가 상당히 힘들 수 있습니다. 이를 해결하기 위해 정의된 값이 바로 '표준 편차'입니다.

표준 편차는 $S(X) = \sigma (X)$로 표기하며 분산의 양의 제급근으로 정의합니다.

$$ \begin{align} S(X) = \sigma (X) = \sqrt{V(X)}. \end{align} $$

 

마지막으로 분산의 계산을 편하게 하기 위해 아래 식을 기억해두는 것이 좋습니다. $$ \begin{align} V(X) & = E((X-\mu)^2) \nonumber \\ & = E(X^2 - 2X\mu + \mu^2) \nonumber \\ & =E(X^2) - 2\mu E(X) + \mu^2 \nonumber \\ & = E(X^2) - 2\mu^2 + \mu^2 \nonumber \\ & = E(X^2) - \mu^2 \end{align} $$

분산의 성질

$a, b \in \mathbf{R}$, 확률 변수 $X, Y$에 대해서 분산은 아래와 같은 성질을 만족합니다. $$ \begin{align} 1. & \quad V(aX+b) = a^2 V(X) \nonumber \\2. & \quad  V(X+Y) = V(X) + V(Y) \quad \text{단, $X$와 $Y$는 독립.} \end{align}$$

pf) 1. 분산을 계산하기 위해서 일단 $aX+b$의 기댓값을 구해야 하는데 위의 기댓값의 성질을 이용하면 $E(aX + b) = aE(X)+b$라는 사실을 알 수 있습니다. 따라서 분산의 정의에 따라 아래와 같이 증명할 수 있습니다. $$\begin{align} V(aX+b) & = E((aX+b - E(aX+b))^2) \nonumber \\ & = E((aX + b - (aE(X) + b))^2) \nonumber \\ & = E((aX- aE(X))^2) \nonumber \\ & = E(a^2 (X-\mu)^2) \quad (\because E(X) = \mu) \nonumber \\ & = a^2 E((X-\mu)^2) \quad (\because E(aX) = aE(X)) \nonumber \\ & = a^2 V(X). \end{align} $$

2. 마찬가지로 기댓값의 성질을 이용하면 아래와 같이 증명할 수 있습니다. $$ \begin{align} V(X + Y) & =  E((X + Y - E(X+Y))^2) \nonumber \\ & = E((X + Y - \mu_x - \mu_y)^2) \nonumber \\ & = E((X - \mu_x)^2 + (Y - \mu_y)^2 + 2(X - \mu_x)(Y -\mu_y)) \nonumber \\ & = E((X-\mu_x)^2) + E((Y - \mu_y)^2) + 2E((X-\mu_x)(Y-\mu_y)) \nonumber \\ & = V(X) + V(Y) + 2E(XY-\mu_y X - \mu_x Y + \mu_x \mu_y) \nonumber \\ & = V(X) + V(Y) + 2E(XY) - 2\mu_x \mu_y. \end{align}$$ 다음으로 넘어가기 위해서는 서로 독립인 $X$, $Y$의 성질을 이용해야만 합니다. 서로 다른 확률 변수에 대해서 독립이란, $X$와 $Y$ 두 확률 변수가 가지는 확률 분포 함수가 $f(X = x, Y = y) = f(X = x)\cdot f(Y = y)$를 만족하는 경우를 말합니다. (참조 : 결합 분포) 따라서, $$\begin{align} E(XY) & = \sum_{x, y} xyf(X=x, Y=y) \nonumber \\ & = \sum_{x, y} xy f(x)f(y) \nonumber \\ & = \sum_{x}xf(x) \sum_{y}yf(y) \nonumber \\ & = E(X)E(Y) \end{align}$$가 되고, $$\begin{align} V(X) + V(Y) + 2E(XY) - 2\mu_x \mu_y & = V(X) + V(Y) + 2\mu_x \mu_y - 2\mu_x \mu_y  \nonumber \\ & = V(X) + V(Y) \end{align}$$가 되므로, 서로 독립인 확률 변수 $X$, $Y$에 대해서 $$V(X + Y) = V(X) + V(Y)$$를 만족하게 됩니다. (연속형의 경우도 동일한 방법으로 증명이 가능합니다)

 

분위수(Fractile)

상대적인 위치를 나타내는 대표적인 척도로 사용됩니다. 분위수에도 종류가 굉장히 많은데 이번에는 p-분위수에 대해서만 간략히 말해보겠습니다. p는 0~1 사이의 값이고 p-분위수라고 하면, '어떤 값'보다 작거나 같은 값이 나올 가능성이 p가 되도록 하는 '어떤 값'을 의미합니다. 예를 들어, 어느 분포의 0.2 분위수가 30이라고 한다면, 30보다 작거나 같은 값이 관찰될 확률이 0.2가 된다는 뜻입니다.

사분위수(Quantile)

다양한 p 값에 따라 정의되는 분위수들 가운데 자주 사용되는 분위수 중 하나로 0.25, 0.5, 0.75 분위수가 있는데 이 값들을 차례대로 Q1, Q2, Q3라고 부릅니다. 여기서 특히 Q2는 해당 값보다 작거나 큰 값이 나올 확률이 모두 50%이므로, 자료의 한 가운데이 있는 값으로 볼 수 있습니다. 따라서 Q2를 특별히 '중위수'라고 부릅니다.

Q1, Q2, Q3 세 값이 분포를 4 등분한 경계에 해당하므로 이들을 묶어 '사분위수'라고 부릅니다. 이때 Q3와 Q1의 차이를 'IQR(Inter Quantile Range)' 혹은 '사분위간 범위'라고 부릅니다. IQR 사이의 값들은 분포의 50%에 해당하므로 변동성을 나타내는 척도 중 하나로 사용되기도 합니다.

반응형

'Mathmetics > Statistics' 카테고리의 다른 글

공분산과 상관계수  (0) 2022.03.31
결합 분포  (0) 2022.03.22
확률 변수와 확률 분포  (0) 2022.03.12
전체 확률 법칙과 베이즈 정리  (0) 2022.03.02
확률의 공리, 조건부 확률, 독립  (0) 2022.02.27

댓글