통계적 추정은 표본을 추출하여 모수를 추정하는 방법으로, 점 추정과 구간 추정이 있다. 점 추정은 보통 표본평균과 표본분산을 추정량으로 두고 모수를 추정한다. 이 방식은 표본이 모집단의 특성을 잘 반영하지 못하는 경우에 오차가 크기 때문에, 표본이 많지 않을 경우 점 추정량이 실제 모수와 얼마나 유사한지 알기 어렵다는 단점이 있다.
구간 추정은 이러한 점 추정의 단점을 보완한 것으로, 모수가 있을 구간(예상하는 구간)을 정해놓고, 모수가 실제 해당 구간에 있을 확률을 구하는 방법이다.
모수가 있을 것으로 예상되는 구간을 정하기 위해 다음과 같은 정의를 사용한다. - 구간의 하한: θ^l - 구간의 상한: θ^h - 구간의 크기: θ^h - θ^l
따라서 구간은 [θ^l, θ^h] 로 표기한다.
구간의 크기가 작을수록, 모수를 보다 정확하게 추정할 수 있다. 또한 모수가 있을 확률을 신뢰도(confidence level)라고 부른다. 위의 구간에 모수가 있을 확률을 P(θ^l <= θ <= θ^h) = 1 - a 라고 할 때, (1 - a) 를 신뢰도라고 하며, 100 * (1-a) % 를 신뢰구간이라 한다.
신뢰도는 어떻게 계산할까,
실제 모평균(u) 에 대해 θ^l <= u <= θ^h 라는 범위가 주어지는 문제는 표준화를 수행해서 푼다.
[ 표준화 시, 확률변수 Z ] 즉, 모평균이 모수가 되니 P(범위) 를 구할 때 표준화를 이용해서
(표본평균 - u) / (표본의 표준편차)
로 P 를 나타낸 뒤, 표준정규분포표를 이용해 계산하는 것이다. 아래는 표준화했을 때의 범위이다.
[ 표준화 수행 시 구간 ] 또는 반대로 표준정규분포에 대해 범위가 주어져서 (즉, 신뢰도가 주어진 경우) 역으로 모수에 대한 범위(신뢰구간)를 추정할 수 있다. 위에 주어진 식에 대해 풀어보면, 다음과 같다.
[ 모수의 신뢰구간 구하기 ] 위는 모평균이라는 하나의 예시이고, 이제부터 모비율, 모분산, 모평균에 대한 구간추정을 알아볼 것이다.
[ T 분포를 따르는 확률변수 ] 모분산이 알려지지 않은 모집단에서 크기가 n 인 표본을 추출했다고 하면, 표본평균은 X_bar 이다. 모평균 u 의 신뢰구간은 다음과 같다.
[ 모분산을 모르는 경우의 모평균에 대한 신뢰구간 ] 여기서 t 는 자유도가 (n-1) 인 T 분포의 오른쪽 면적이 a/2 인 값이다. 또한 모분산을 모르기 때문에 표본분산이 사용된다.
[ 표본분산 ] 참고로 T 분포는 표본의 크기가 30 미만일 때 사용한다. 만약 표본 크기가 30 이상이면 표준정규분포에 근사하게 된다. 만약, 표본이 30개 이상이고 모분산을 모른다면, 모집단이 정규분포라는 조건이 없어도 표본 크기가 충분하면 표본분산은 모분산에 매우 가깝게 근사한다. 따라서 표준정규분포를 이용해서 근사신뢰구간을 구한다.
분산과 관련이 깊은 확률분포는 카이제곱분포이다. 카이제곱분포는 분산의 분포를 보여주기 때문이다.
모집단이 정규분포를 따르고, 크기가 n인 표본분산을 S의 제곱이라 할 때 모분산의 신뢰구간은 다음과 같다.
[ 모분산에 대한 신뢰구간 ]
여기서 카이제곱(X의 제곱)은 자유도가 (n-1)인 카이제곱분포표의 오른쪽 면적이 각각 1-a/2, a/2 가 되는 값이다. 이 부분은 부등호의 어디에 위치한지에 유의해야 한다. 위의 경우 실제 그래프에서 1-a/2 보다 크고, a/2 보다 작은 면적(아래 이미지에서 파란색 부분)에 해당되지만, 아래와 같은 식은 아래 이미지에서 노란색 면적에 해당되기 때문이다.
[ 모분산에 대한 신뢰구간 ][ 카이제곱분포의 그래프 ]
즉, 카이제곱분포에서 x 축이 해당 범위일 때의 면적을 생각하면 된다. 카이제곱분포표를 사용해서 계산하면 쉽게 구할 수 있다.
이항분포 B(n, p) 를 따르는 모비율이 p인 어떤 사건이 크기가 n인 독립표본 가운데 X개가 나타났다면, 표본비율 p^ = X/n 의 분포는 n이 무한대일 때 근사적으로 정규분포 N(p, pq/n) 을 따르고, Z = (p^ - p) / sqrt(pq/n) 은 근사적으로 표준정규분포를 따른다.
여기서 X 는 이항분포 B(n, p) 를 따른다.
- 표본비율 p^ (p_hat) 의 기댓값:E(X/n) = p - 표본비율 p^ (p_hat) 의 분산:Var(X/n) = pq/n (q = 1-p)
표본비율로부터 모비율 구간을 추정하는 방법은 표본비율은 근사적으로 정규분포를 따르므로, 표준화해서 표준정규분포표를 이용하는 것이다.