통계적 추론(Statistical Inference)
통계적 추론(statistical inference) 또는 통계적 추측은 모집단에 대한 어떤 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭한다. 통계학의 한 부분으로서 추론 통계학이라고 불린다. 이것은 기술 통계학(descriptive statistics)과 구별되는 개념이다. 추론 통계에는 도수 확률(frequency probability)와 베이즈 추론의 두 학파가 있다.
모집단에 대한 추론을 100% 확신하기 위해서는 모집단 전체를 표본으로 조사해야 한다. 그러나 비용 또는 시간 등의 이유로 불가능한 경우가 많기 때문에 표본에서 얻은 정보를 가지고 추론한다.
통계적 추측은 추정(estimation)과 가설검정(testing hypothesis)로 나눌 수 있다.
- 추정(estimation)은 표본을 통해 모집단 특성이 어떠한가에 대해 추측하는 과정이다. 표본평균 계산을 통해 모집단 평균을 추측해보거나, 모집단 평균에 대한 95% 신뢰구간의 계산 과정을 나타낸다. 즉, 표본을 추출하고 측정한 결과값을 모집단에 대한 측정결과로 사용하는 것이다.
- 가설검정(testing hypothesis)은 모집단 실제값이 얼마나 되는가 하는 주장과 관련해서, 표본이 가지고 있는 정보를 이용해 가설이 올바른지 그렇지 않은지 판정하는 과정을 나타낸다.
추정은 크게 점 추정(point estimation)과 구간 추정(interval estimation)으로 나눠진다.
- 점 추정(point estimation)은 모집단의 특성을 단일한 값으로 추정하는 방법이다. 대표적으로 표본평균과 표본분산으로 모집단의 평균과 분산을 추정하는 것이 있다. 즉, 점 추정은 표본을 이용해서 모수를 추정하는 방법이다.
- 구간 추정(interval estimation)은 추정치의 신뢰도를 높이기 위해 점 추정의 단점을 보완한 것으로, 점 추정치를 중심으로 일정 구간을 만들어 해당 구간 안에 모수가 있는지 추정하는 방법이다.
모수(parameter)는 모집단의 특성을 보여주는 값으로, 평균이나 분산 또는 표준편차가 될 수 있다. 중요한 것은 모수는 고정된 값이라는 것이다. 따라서 일반적으로 세타(θ)로 표현한다.
점 추정 (Point Estimation)
표본으로부터 모수를 추정하기 위해 점 추정량(point estimator)을 정의해야 한다.
모수에 대한 점 추정량(θ_hat) : θ^ = h(X1, X2, ..., Xn)
점 추정량은 표본들의 함수이다(위의 h(...)를 의미). 만약 모수가 평균이라면 점 추정량은 표본평균이 된다. 모분산의 점 추정량은 (즉 모수가 분산인 경우) 점 추정량은 표본분산이 된다. 즉, 대표적인 점 추정량은 표본평균과 표본분산이다.
표본평균이 모평균이 된다는 사실은 이전에 언급을 했었고, 그렇다면 표본분산은 모분산을 어떻게 추정할까?
실제로 표본분산의 기댓값은 모분산이 된다. 그 이유를 설명하기 전에 다시 개념을 살펴볼 필요가 있다.
무작위 표본 추출(random sampling)에서 각 표본은 서로 독립이고 동일한 확률분포를 갖는다. 이 때, 표본평균은 N개의 확률표본을 추출했을 때 표본들의 합을 N으로 나눈 값이 된다. 글자 그대로, 표본들의 평균인 것이다. 표본분산은 각 표본과 표본평균의 차이를 제곱한 값들의 기댓값이다. 편차의 제곱의 기댓값인데, 식은 다음과 같다.
여기서 n 이 아니라 n-1 로 나누는 이유는 실제로 뽑은 표본간의 분산이 모분산보다 작게 나오기 때문에 n / (n-1) 을 곱해서 값을 크게 만들어준 것이다. (참고)
따라서 위 식에 따라 표본분산의 기댓값으로 모분산을 추정한다.
점 추정량이 얼마나 모수에 가까운지 평가하는 방법으로는 편향과 평균제곱오차 그리고 유효추정량이 있다.
유효추정량은 추정량의 분산이 더 작을수록 유효하다는 개념이다.
적률법 (Moment Method)
K차 모적률과 K차 표본적률을 일치시켜 모수를 추정하는 방법으로, 점추정 방법 중 하나이다. MLE와 베이지안 추론과 같은 모수를 추정하는 방법이다. 쉽게 말해, 모집단의 평균이 표본평균과 일치하는 모수를 찾는 방법으로, 대게 표본평균이 모수에 대한 점 추정값이 된다.
임의의 확률변수 X의 기댓값이 존재한다면 X의 적률생성함수(moment generating function, mgf)는 다음과 같이 정의한다.
t = 0 근처에서 적률생성함수가 존재한다고 가정할 때 적률생성함수를 이용하면 확률분포의 적률(moment)은 다음과 같이 간단하게 구할 수 있다.
여기서 n 에 따라 1차, 2차, n차 적률이라고 한다.
정리하자면, 적률생성함수를 이용하면 적률(moment)은 다음과 같다.
- 1차 적률: 기댓값
- 2차 적률: 분산
- n차 적률: E(X^n)
적률생성함수의 특징
- 확률변수 X와 Y가 같은 적률생성함수를 가지면 즉, 모든 t에 대해 Mx(t) = My(t) 이면 두 확률변수는 같은 확률분포를 가진다.
- 서로 독립인 확률변수 X1, ..., Xn 의 적률생성함수가 각각 Mx1~Mxn 일 때 확률변수들의 합 Y 의 적률생성함수는 각 적률생성함수들의 곱이다.
확률밀도함수가 f(x; θ1, θ2, ..., θm) 인 모집단으로부터 n개의 표본을 X1, ..., Xn 이라 할 때, 여기서 θ1, θ2, ..., θm 을 m개의 알려지지 않은 모수라고 한다. 그리고 k차 적률은 다음과 같이 정의된다.
또한 적률은 n개의 표본으로부터 X^k 의 기댓값이므로, 확률질량함수에 대해 다음과 같이 정의될 수 있다.
좀 정리해서 나타내면 다음과 같다. (확률변수가 X에서 Y 로 바꾸어 설명하고 있다.)
따라서 m개의 모수가 있다면, n개의 표본으로부터 m개의 적률을 이용해 모수의 추정값을 얻을 수 있다.
m개의 적률을 이용해서 모수의 추정값을 얻는 방법은 다음 식을 통해 알 수 있다.
위에서도 1차 적률은 기댓값이라 했는데, 위의 왼쪽 식이 이를 의미한다. 그리고 두번째 식을 활용하면 분산을 구할 수 있다.
2차 적률을 활용하여 분산을 구하는 증명은 다음과 같다.
식이 굉장히 복잡해보이는데, 아래의 식으로부터 출발해서 천천히 구하면 이해가 된다.
출처: https://blog.naver.com/mykepzzang/220846464280
불편추정량 (Unbiased Estimator)
먼저, 편향(bias)에 대해 알아보자. 우리가 기대하는 "추정량과 모수의 차이"를 편향(bias)라고 한다. 표본들로부터 얻어낸 추정량은 모수에 가까울수록 좋다. 추정량의 기댓값이 모수와 같아지는 것이 가장 바람직한 경우이다. 즉, 편향이 가장 작은 상황을 필요로하는 것이다.
편향이 0인 상황일 때의 추정량을 불편추정량(Unbiased Estimator)라고 한다.
E(θ^) - θ = 0
--> E(θ^) = θ
표본평균은 모평균의 불편추정량이고, 표본분산은 모분산의 불편추정량이다.
# 주의할 점은 적률법으로 유도한 분산의 점 추정량은 편향추정량(biased estimator)라는 점이다. 편향추정량은 표본을 통해 얻은 추정량과 모수가 일치하지 않음을 의미한다.
정리하자면, 모 평균 추정에 있어서 대표적인 불편 추정량이 표본 평균인 것 처럼, 어떤 통계량의 기대값이 모수에 일치하게되는 통계량을 불편 추정량이라고 한다.
즉, 불편 추정량의 기대값 E(θ^) = 모수 θ
.. ( 표본 평균의 기대값 E[ x̅ ] = 모 평균 μ ) => 불편 평균
.. ( 표본 분산의 기대값 E[s2] = 모 분산 σ2 ) => 불편 분산
.. ( 표본 비율의 기대값 E[p] = 모 비율 π ) => 불편 비율
추정오차 (Estimator Error)
Error = 점 추정량 - 모수
다음과 같은 특징을 갖는다.
- 평균제곱오차(Mean Squared Error, MSE)에 쓰인다.
- 평균제곱오차(MSE): 오차를 제곱한 값의 기댓값
- 평균제곱오차도 값이 작을수록 좋다. (참값에 가깝다는 의미)
평균제곱오차는 다음과 같이 표기한다.
최대 우도법 (Maximum Likelihood Method)
우도란 어떤 일이 발생할 가능성(likelihood)을 의미한다. 따라서 최대우도법을 최대가능도 추정이라고 부르기도 한다.
즉, 최대 우도는 결과에 해당하는 각 가설(가능성)마다 계산된 우도값 중 가장 큰 값을 의미한다. 가능성이 가장 큰 것을 고른다는 것이다.
가능성을 추정하려면 먼저, 우도함수(likelihood function)를 정의해야 한다.
우도함수는 확률변수 X1, ..., Xn 의 결합확률밀도함수 f를 모수(θ)에 대한 함수로 볼 때를 말하며, L(x1, x2, ..., xn ; θ) 로 표기한다.
우도함수를 이용해 점 추정하는 방법: 표본 X1, ..., Xn 을 얻을 확률이 가장 높은 θ^ (=최대우도)
즉, 결합확률밀도함수가 모수에 대한 함수일 때를 우도함수라고 한다.
만약 각 확률변수가 서로 독립이면 우도함수는 각 확률변수의 확률밀도함수의 곱으로 표현된다.
다시 말해 주어진 관찰값을 가장 잘 설명해주는 θ^ (theta hat) 을 모수의 추정량으로 한다. 이 추정량을 최대우도 추정량이라 한다. 확률표본의 우도함수 L(x1, x2, ..., xn ; θ) 를 최대로 하는 θ를 θ^ 이라 할 때, θ^을 모수 θ의 최대우도 추정량이라 한다.
우도함수가 최대로되는 θ를 찾기 위해서는 미분을 이용한다. 즉, 극댓값을 찾는 것이다.
아래는 확률분포별로 최대우도 추정량을 구하는 예시이다.
- 이항분포, 포아송분포
- 정규분포
최대우도 추정을 이용해서 점 추정을 해보니 표본평균이 점추정량이 된다. 주의할 점은 평균의 점추정량은 불편추정량이지만, 분산의 점추정량은 편향추정량이라는 것이다. 따라서 표본분산과 분산의 점추정량은 약간 다르다.
출처: https://blog.naver.com/mykepzzang/220863521517
참고: https://ratsgo.github.io/statistics/2017/09/23/MLE/
'Machine Learning > Statistics' 카테고리의 다른 글
통계적 추정 - 구간 추정(신뢰구간) (0) | 2019.05.28 |
---|---|
카이제곱분포, T분포 (0) | 2019.05.28 |
대수의 법칙, 중심극한정리 (0) | 2019.05.28 |
확률 분포, 표본평균의 분포 (2) | 2019.05.24 |
확률과 통계 기초 (0) | 2019.05.24 |