정규 분포의 유용한 특성 중 하나는 바로 다른 분포의 확률에 대한 근삿값을 구할 수 있다는 점입니다.
가장 흔한 예시는 normal distribution을 이용하여 binomial distribution에 대한 근삿값을 구하는 것입니다.
이항 분포가 있을 때, 시행 횟수 n이 커질수록 계산하기 힘듭니다.
하지만 정규 분포로 이러한 이항 분포의 근사값을 쉽게 구할 수 있습니다.
1. Central Limit Theorem
central limit theorem, 중심 극한 정리는 간단히 말해서
확률 변수 각각 개인의 분포와는 상관없이, 그 분포의 평균들의 표본 분포가 정규 분포에 근사한다는 이론입니다.
쉽게 말해서 어떤 확률 분포던 상관하지 않고, 그 확률 분포에서 n개를 뽑는다고 가정했을 때, n이 무수히 커지면 분포의 평균의 분포가 정규 분포에 근사한다는 내용입니다.
2. Normal Approximation to the Binomail Distribution
아무튼 정규 분포를 이용하여 이항 분포의 확률 값을 구하기 위해서는 두 가지 조건이 필요합니다.
n이 충분히 커야하고, 확률 p가 0이나 1에 가깝지 않아야 합니다.
너무 주관적이죠? 하지만 어쩔 수 없습니다...
따라서 B(n, p)가 있다면 이는 곧 N(np, np(1 - p))라고 볼 수 있겠습니다. (물론 근사적으로)
즉, B(n, p) ~ N(np, np(1 - p))입니다.
비록 X~B(16, 0.5)와 같이 Discrete한 분포이고, Y~N(8, 4)와 같이 Continuous한 분포더라도, 완전히 동일하지는 않지만 그래도 비슷합니다.
이때 X~B(16, 05)에서 X가 5 이하일 확률에 대해서 알아보면 0.1051이 나옵니다.
그래서 Y~N(8, 4)에 대해서 Y가 5 이하일 확률을 계산하면 0.067이 나옵니다.
엥? 전혀 근사하지 않죠?
따라서 나온 개념이 continuity correction입니다.
continuity correction은 불연속 분포가 연속 분포에 의해 근사될때 수행되는 조정입니다.
보정하기 위한 값입니다.
이때 continuity correction은 면적이 커지는 방향으로 0.5 이동합니다.
따라서 3 < X < 7을 근사해서 구하려면, 2.5 < Y < 7.5로 계산해야합니다.
아무튼 Y가 5 이하일 확률을 구해야 하므로, Y <= 5.5를 계산하면 됩니다.
위의 확률을 구하면 0.1056이 나옵니다.
꽤 근사하는 모습을 볼 수 있습니다.
근데 아까 n이 충분히 크고 라는 말이 있었는데, n이 커질수록 정확도는 올라갑니다. 하지만 p가 0 또는 1에 가까우면 별로 좋지 않습니다.
이때 n은 주관적이므로 객관적인 지표로 보통 np >= 5 and n(1-p) >= 5가 객관적인 지표로 이용됩니다.
하지만 이건 사람마다 다르니까 참고만 하시면 될 것 같습니다.
따라서 X~B(n, p) -> N(np, np(1 - p))가 되고,
\(P(X \leq x) \cong \Phi(\frac{x - np + 0.5}{\sqrt{np(1-p)}})\),
\(P(X \geq x) \cong \Phi(\frac{x - np - 0.5}{\sqrt{np(1-p)}})\)입니다.
음
중심 극한 정리에 X1 + ... + Xn의 합에 대한 분포의 근사치는 \(N(n\mu, n\sigma^2)\)라고 합니다.
또한 X1 + ... + Xn의 평균은 \(\mu, \frac{\sigma^2}{n}\)이 돕니다.
물론 모든 Xi의 평균은 \(\mu\)이고, 분산은 \(\sigma^2\)입니다. 근데 그렇다고 정규 분포는 아닙니다.
이번 글에서는 정규 분포가 아닌 분포들의 평균들의 분포들이 정규 분포를 따르므로, 이를 이용해서 쉽게 큰 값의 근사치를 구할 수 있는 법을 공부했습니다.
어렵네용
감사합니다.
지적 환영합니다.