구간 추정 (Interval Estimation)
통계적 추정은 표본을 추출하여 모수를 추정하는 방법으로, 점 추정과 구간 추정이 있다. 점 추정은 보통 표본평균과 표본분산을 추정량으로 두고 모수를 추정한다. 이 방식은 표본이 모집단의 특성을 잘 반영하지 못하는 경우에 오차가 크기 때문에, 표본이 많지 않을 경우 점 추정량이 실제 모수와 얼마나 유사한지 알기 어렵다는 단점이 있다.
구간 추정은 이러한 점 추정의 단점을 보완한 것으로, 모수가 있을 구간(예상하는 구간)을 정해놓고, 모수가 실제 해당 구간에 있을 확률을 구하는 방법이다.
모수가 있을 것으로 예상되는 구간을 정하기 위해 다음과 같은 정의를 사용한다.
- 구간의 하한: θ^l
- 구간의 상한: θ^h
- 구간의 크기: θ^h - θ^l
따라서 구간은 [θ^l, θ^h] 로 표기한다.
구간의 크기가 작을수록, 모수를 보다 정확하게 추정할 수 있다. 또한 모수가 있을 확률을 신뢰도(confidence level)라고 부른다.
위의 구간에 모수가 있을 확률을 P(θ^l <= θ <= θ^h) = 1 - a 라고 할 때, (1 - a) 를 신뢰도라고 하며, 100 * (1-a) % 를 신뢰구간이라 한다.
신뢰도는 어떻게 계산할까,
실제 모평균(u) 에 대해 θ^l <= u <= θ^h 라는 범위가 주어지는 문제는 표준화를 수행해서 푼다.
즉, 모평균이 모수가 되니 P(범위) 를 구할 때 표준화를 이용해서
(표본평균 - u) / (표본의 표준편차)
로 P 를 나타낸 뒤, 표준정규분포표를 이용해 계산하는 것이다. 아래는 표준화했을 때의 범위이다.
또는 반대로 표준정규분포에 대해 범위가 주어져서 (즉, 신뢰도가 주어진 경우) 역으로 모수에 대한 범위(신뢰구간)를 추정할 수 있다.
위에 주어진 식에 대해 풀어보면, 다음과 같다.
위는 모평균이라는 하나의 예시이고, 이제부터 모비율, 모분산, 모평균에 대한 구간추정을 알아볼 것이다.
출처: https://blog.naver.com/mykepzzang/220864138884
모평균에 대한 구간 추정 (Estimating the Mean)
모평균 구간 추정은 크게 두 가지로 나뉜다.
1) 모분산을 알고 있을 경우의 모평균 구간 추정
모분산이 알려진 모집단에서 크기가 n 인 표본을 추출했다고 하면, 표본평균은 X_bar 이다. 모평균 u 의 신뢰구간은 다음과 같다.
여기서 Za/2 는 오른쪽 면적이 a/2 인 표준정규분포를 따르는 표준정규분포 값이다.
궂이 변수 하나하나에 명명을 따지자면, 다음과 같다.
2) 모분산을 모르고 있을 경우의 모평균 구간 추정
여기서는 T 분포에 대해 알아야 한다.
모분산이 알려지지 않은 모집단에서 크기가 n 인 표본을 추출했다고 하면, 표본평균은 X_bar 이다. 모평균 u 의 신뢰구간은 다음과 같다.
여기서 t 는 자유도가 (n-1) 인 T 분포의 오른쪽 면적이 a/2 인 값이다.
또한 모분산을 모르기 때문에 표본분산이 사용된다.
참고로 T 분포는 표본의 크기가 30 미만일 때 사용한다. 만약 표본 크기가 30 이상이면 표준정규분포에 근사하게 된다. 만약, 표본이 30개 이상이고 모분산을 모른다면, 모집단이 정규분포라는 조건이 없어도 표본 크기가 충분하면 표본분산은 모분산에 매우 가깝게 근사한다. 따라서 표준정규분포를 이용해서 근사신뢰구간을 구한다.
출처: https://blog.naver.com/mykepzzang/220864466854
모분산에 대한 구간추정 (Estimating the Variance)
분산과 관련이 깊은 확률분포는 카이제곱분포이다. 카이제곱분포는 분산의 분포를 보여주기 때문이다.
모집단이 정규분포를 따르고, 크기가 n인 표본분산을 S의 제곱이라 할 때 모분산의 신뢰구간은 다음과 같다.
여기서 카이제곱(X의 제곱)은 자유도가 (n-1)인 카이제곱분포표의 오른쪽 면적이 각각 1-a/2, a/2 가 되는 값이다. 이 부분은 부등호의 어디에 위치한지에 유의해야 한다. 위의 경우 실제 그래프에서 1-a/2 보다 크고, a/2 보다 작은 면적(아래 이미지에서 파란색 부분)에 해당되지만, 아래와 같은 식은 아래 이미지에서 노란색 면적에 해당되기 때문이다.
즉, 카이제곱분포에서 x 축이 해당 범위일 때의 면적을 생각하면 된다. 카이제곱분포표를 사용해서 계산하면 쉽게 구할 수 있다.
출처: https://blog.naver.com/mykepzzang/220864770414
모비율에 대한 구간추정 (Estimating the Proportion)
모비율 구간추정을 알기 전에, 표본비율에 대해 알아야 한다.
이항분포 B(n, p) 를 따르는 모비율이 p인 어떤 사건이 크기가 n인 독립표본 가운데 X개가 나타났다면, 표본비율 p^ = X/n 의 분포는 n이 무한대일 때 근사적으로 정규분포 N(p, pq/n) 을 따르고, Z = (p^ - p) / sqrt(pq/n) 은 근사적으로 표준정규분포를 따른다.
여기서 X 는 이항분포 B(n, p) 를 따른다.
- 표본비율 p^ (p_hat) 의 기댓값: E(X/n) = p
- 표본비율 p^ (p_hat) 의 분산: Var(X/n) = pq/n
(q = 1-p)
표본비율로부터 모비율 구간을 추정하는 방법은 표본비율은 근사적으로 정규분포를 따르므로, 표준화해서 표준정규분포표를 이용하는 것이다.
출처: https://blog.naver.com/mykepzzang/220865228248
'Machine Learning > Statistics' 카테고리의 다른 글
통계적 추정 - 점 추정(적률법, 최대우도법) (0) | 2019.05.28 |
---|---|
카이제곱분포, T분포 (0) | 2019.05.28 |
대수의 법칙, 중심극한정리 (0) | 2019.05.28 |
확률 분포, 표본평균의 분포 (2) | 2019.05.24 |
확률과 통계 기초 (0) | 2019.05.24 |