구간 추정 (Interval Estimation)

통계적 추정은 표본을 추출하여 모수를 추정하는 방법으로, 점 추정과 구간 추정이 있다. 점 추정은 보통 표본평균과 표본분산을 추정량으로 두고 모수를 추정한다. 이 방식은 표본이 모집단의 특성을 잘 반영하지 못하는 경우에 오차가 크기 때문에, 표본이 많지 않을 경우 점 추정량이 실제 모수와 얼마나 유사한지 알기 어렵다는 단점이 있다.

구간 추정은 이러한 점 추정의 단점을 보완한 것으로, 모수가 있을 구간(예상하는 구간)을 정해놓고, 모수가 실제 해당 구간에 있을 확률을 구하는 방법이다.

모수가 있을 것으로 예상되는 구간을 정하기 위해 다음과 같은 정의를 사용한다.
- 구간의 하한: θ^l
- 구간의 상한: θ^h
- 구간의 크기: θ^h - θ^l

따라서 구간은 [θ^l, θ^h] 로 표기한다.

구간의 크기가 작을수록, 모수를 보다 정확하게 추정할 수 있다. 또한 모수가 있을 확률을 신뢰도(confidence level)라고 부른다.

위의 구간에 모수가 있을 확률을  P(θ^l <=  θ <= θ^h) = 1 - a  라고 할 때, (1 - a) 를 신뢰도라고 하며,  100 * (1-a) %신뢰구간이라 한다.

신뢰도는 어떻게 계산할까,

실제 모평균(u) 에 대해  θ^l <= u <= θ^h 라는 범위가 주어지는 문제는 표준화를 수행해서 푼다.

[ 표준화 시, 확률변수 Z ]

즉, 모평균이 모수가 되니 P(범위) 를 구할 때 표준화를 이용해서

(표본평균 - u) / (표본의 표준편차)

로 P 를 나타낸 뒤, 표준정규분포표를 이용해 계산하는 것이다. 아래는 표준화했을 때의 범위이다.

[ 표준화 수행 시 구간 ]

또는 반대로 표준정규분포에 대해 범위가 주어져서 (즉, 신뢰도가 주어진 경우) 역으로 모수에 대한 범위(신뢰구간)를 추정할 수 있다.
위에 주어진 식에 대해 풀어보면, 다음과 같다.

[ 모수의 신뢰구간 구하기 ]

위는 모평균이라는 하나의 예시이고, 이제부터 모비율, 모분산, 모평균에 대한 구간추정을 알아볼 것이다.

 

출처: https://blog.naver.com/mykepzzang/220864138884

 

모평균에 대한 구간 추정 (Estimating the Mean)

모평균 구간 추정은 크게 두 가지로 나뉜다.

1) 모분산을 알고 있을 경우의 모평균 구간 추정

모분산이 알려진 모집단에서 크기가 n 인 표본을 추출했다고 하면, 표본평균은 X_bar 이다. 모평균 u 의 신뢰구간은 다음과 같다.

[ 모분산을 아는 경우의 모평균에 대한 신뢰 구간 ]

여기서 Za/2 는 오른쪽 면적이 a/2 인 표준정규분포를 따르는 표준정규분포 값이다.
[ 표준화 했을 때의 신뢰도 및 신뢰구간 ]

궂이 변수 하나하나에 명명을 따지자면, 다음과 같다.

[ 확률분포에서 각 변수의 의미 ]


2) 모분산을 모르고 있을 경우의 모평균 구간 추정

여기서는 T 분포에 대해 알아야 한다.

[ T 분포를 따르는 확률변수 ]

모분산이 알려지지 않은 모집단에서 크기가 n 인 표본을 추출했다고 하면, 표본평균은 X_bar 이다. 모평균 u 의 신뢰구간은 다음과 같다.

[ 모분산을 모르는 경우의 모평균에 대한 신뢰구간 ]

여기서 t 는 자유도가 (n-1) 인 T 분포의 오른쪽 면적이 a/2 인 값이다.
또한 모분산을 모르기 때문에 표본분산이 사용된다.

[ 표본분산 ]

참고로 T 분포는 표본의 크기가 30 미만일 때 사용한다. 만약 표본 크기가 30 이상이면 표준정규분포에 근사하게 된다. 만약, 표본이 30개 이상이고 모분산을 모른다면, 모집단이 정규분포라는 조건이 없어도 표본 크기가 충분하면 표본분산은 모분산에 매우 가깝게 근사한다. 따라서 표준정규분포를 이용해서 근사신뢰구간을 구한다.

출처: https://blog.naver.com/mykepzzang/220864466854

 

 

모분산에 대한 구간추정 (Estimating the Variance)

분산과 관련이 깊은 확률분포는 카이제곱분포이다. 카이제곱분포는 분산의 분포를 보여주기 때문이다.

모집단이 정규분포를 따르고, 크기가 n인 표본분산을 S의 제곱이라 할 때 모분산의 신뢰구간은 다음과 같다.

[ 모분산에 대한 신뢰구간 ]

여기서 카이제곱(X의 제곱)은 자유도가 (n-1)인 카이제곱분포표의 오른쪽 면적이 각각 1-a/2, a/2 가 되는 값이다. 이 부분은 부등호의 어디에 위치한지에 유의해야 한다. 위의 경우 실제 그래프에서 1-a/2 보다 크고, a/2 보다 작은 면적(아래 이미지에서 파란색 부분)에 해당되지만, 아래와 같은 식은 아래 이미지에서 노란색 면적에 해당되기 때문이다.

[ 모분산에 대한 신뢰구간 ]
[ 카이제곱분포의 그래프 ]


즉, 카이제곱분포에서 x 축이 해당 범위일 때의 면적을 생각하면 된다. 카이제곱분포표를 사용해서 계산하면 쉽게 구할 수 있다.

출처: https://blog.naver.com/mykepzzang/220864770414

 

 

모비율에 대한 구간추정 (Estimating the Proportion)

모비율 구간추정을 알기 전에, 표본비율에 대해 알아야 한다.

이항분포 B(n, p) 를 따르는 모비율이 p인 어떤 사건이 크기가 n인 독립표본 가운데 X개가 나타났다면, 표본비율 p^ = X/n 의 분포는 n이 무한대일 때 근사적으로 정규분포 N(p, pq/n) 을 따르고, Z = (p^ - p) / sqrt(pq/n) 은 근사적으로 표준정규분포를 따른다.

여기서 X 는 이항분포 B(n, p) 를 따른다.


- 표본비율 p^ (p_hat) 의 기댓값: E(X/n) = p
- 표본비율 p^ (p_hat) 의 분산: Var(X/n) = pq/n
(q = 1-p)

표본비율로부터 모비율 구간을 추정하는 방법은 표본비율은 근사적으로 정규분포를 따르므로, 표준화해서 표준정규분포표를 이용하는 것이다.

[ 모비율에 대한 신뢰구간 ]

출처: https://blog.naver.com/mykepzzang/220865228248

참고: http://www.cqeacademy.com/cqe-body-of-knowledge/quantitative-methods-tools/point-estimates-and-confidence-intervals/

 

 

통계적 추론(Statistical Inference)

통계적 추론(statistical inference) 또는 통계적 추측은 모집단에 대한 어떤 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭한다. 통계학의 한 부분으로서 추론 통계학이라고 불린다. 이것은 기술 통계학(descriptive statistics)과 구별되는 개념이다. 추론 통계에는 도수 확률(frequency probability)와 베이즈 추론의 두 학파가 있다.

모집단에 대한 추론을 100% 확신하기 위해서는 모집단 전체를 표본으로 조사해야 한다. 그러나 비용 또는 시간 등의 이유로 불가능한 경우가 많기 때문에 표본에서 얻은 정보를 가지고 추론한다.

통계적 추측은 추정(estimation)가설검정(testing hypothesis)로 나눌 수 있다.
- 추정(estimation)은 표본을 통해 모집단 특성이 어떠한가에 대해 추측하는 과정이다. 표본평균 계산을 통해 모집단 평균을 추측해보거나, 모집단 평균에 대한 95% 신뢰구간의 계산 과정을 나타낸다. 즉, 표본을 추출하고 측정한 결과값을 모집단에 대한 측정결과로 사용하는 것이다.
- 가설검정(testing hypothesis)은 모집단 실제값이 얼마나 되는가 하는 주장과 관련해서, 표본이 가지고 있는 정보를 이용해 가설이 올바른지 그렇지 않은지 판정하는 과정을 나타낸다.

추정은 크게 점 추정(point estimation)과 구간 추정(interval estimation)으로 나눠진다.
- 점 추정(point estimation)은 모집단의 특성을 단일한 값으로 추정하는 방법이다. 대표적으로 표본평균과 표본분산으로 모집단의 평균과 분산을 추정하는 것이 있다. 즉, 점 추정은 표본을 이용해서 모수를 추정하는 방법이다.
- 구간 추정(interval estimation)은 추정치의 신뢰도를 높이기 위해 점 추정의 단점을 보완한 것으로, 점 추정치를 중심으로 일정 구간을 만들어 해당 구간 안에 모수가 있는지 추정하는 방법이다.

모수(parameter)는 모집단의 특성을 보여주는 값으로, 평균이나 분산 또는 표준편차가 될 수 있다. 중요한 것은 모수는 고정된 값이라는 것이다. 따라서 일반적으로 세타(θ)로 표현한다.

 

 

점 추정 (Point Estimation)

표본으로부터 모수를 추정하기 위해 점 추정량(point estimator)을 정의해야 한다.

모수에 대한 점 추정량(θ_hat) : θ^ = h(X1, X2, ..., Xn)

점 추정량은 표본들의 함수이다(위의 h(...)를 의미). 만약 모수가 평균이라면 점 추정량은 표본평균이 된다. 모분산의 점 추정량은 (즉 모수가 분산인 경우) 점 추정량은 표본분산이 된다. 즉, 대표적인 점 추정량은 표본평균과 표본분산이다.

표본평균이 모평균이 된다는 사실은 이전에 언급을 했었고, 그렇다면 표본분산은 모분산을 어떻게 추정할까?
실제로 표본분산의 기댓값은 모분산이 된다. 그 이유를 설명하기 전에 다시 개념을 살펴볼 필요가 있다.

무작위 표본 추출(random sampling)에서 각 표본은 서로 독립이고 동일한 확률분포를 갖는다. 이 때, 표본평균은 N개의 확률표본을 추출했을 때 표본들의 합을 N으로 나눈 값이 된다. 글자 그대로, 표본들의 평균인 것이다. 표본분산은 각 표본과 표본평균의 차이를 제곱한 값들의 기댓값이다. 편차의 제곱의 기댓값인데, 식은 다음과 같다.

[ 표본분산 ]

여기서 n 이 아니라 n-1 로 나누는 이유는 실제로 뽑은 표본간의 분산이 모분산보다 작게 나오기 때문에 n / (n-1) 을 곱해서 값을 크게 만들어준 것이다. (참고)
따라서 위 식에 따라 표본분산의 기댓값으로 모분산을 추정한다.

점 추정량이 얼마나 모수에 가까운지 평가하는 방법으로는 편향과 평균제곱오차 그리고 유효추정량이 있다.

유효추정량은 추정량의 분산이 더 작을수록 유효하다는 개념이다.

 

 

적률법 (Moment Method)

K차 모적률과 K차 표본적률을 일치시켜 모수를 추정하는 방법으로, 점추정 방법 중 하나이다. MLE와 베이지안 추론과 같은 모수를 추정하는 방법이다. 쉽게 말해, 모집단의 평균이 표본평균과 일치하는 모수를 찾는 방법으로, 대게 표본평균이 모수에 대한 점 추정값이 된다.

임의의 확률변수 X의 기댓값이 존재한다면 X의 적률생성함수(moment generating function, mgf)는 다음과 같이 정의한다.

[ 적률생성함수 ]

t = 0 근처에서 적률생성함수가 존재한다고 가정할 때 적률생성함수를 이용하면 확률분포의 적률(moment)은 다음과 같이 간단하게 구할 수 있다.

[ 확률분포의 적률(moment) ]

여기서 n 에 따라 1차, 2차, n차 적률이라고 한다.

정리하자면, 적률생성함수를 이용하면 적률(moment)은 다음과 같다.

- 1차 적률: 기댓값
- 2차 적률: 분산
- n차 적률: E(X^n)

적률생성함수의 특징
- 확률변수 X와 Y가 같은 적률생성함수를 가지면 즉, 모든 t에 대해 Mx(t) = My(t) 이면 두 확률변수는 같은 확률분포를 가진다.
- 서로 독립인 확률변수 X1, ..., Xn 의 적률생성함수가 각각 Mx1~Mxn 일 때 확률변수들의 합 Y 의 적률생성함수는 각 적률생성함수들의 곱이다.

[ 적률생성함수의 특징 ]

확률밀도함수가 f(x; θ1, θ2, ..., θm) 인 모집단으로부터 n개의 표본을 X1, ..., Xn 이라 할 때, 여기서 θ1, θ2, ..., θm 을 m개의 알려지지 않은 모수라고 한다. 그리고 k차 적률은 다음과 같이 정의된다.

[ 확률밀도함수에 대한 k차 적률 ]

 또한 적률은 n개의 표본으로부터 X^k 의 기댓값이므로, 확률질량함수에 대해 다음과 같이 정의될 수 있다.

[ 확률질량함수에 대한 k차 적률 ]

좀 정리해서 나타내면 다음과 같다. (확률변수가 X에서 Y 로 바꾸어 설명하고 있다.)

[ k차 적률 ]

따라서 m개의 모수가 있다면, n개의 표본으로부터 m개의 적률을 이용해 모수의 추정값을 얻을 수 있다.


m개의 적률을 이용해서 모수의 추정값을 얻는 방법은 다음 식을 통해 알 수 있다.


위에서도 1차 적률은 기댓값이라 했는데, 위의 왼쪽 식이 이를 의미한다. 그리고 두번째 식을 활용하면 분산을 구할 수 있다.


2차 적률을 활용하여 분산을 구하는 증명은 다음과 같다.


식이 굉장히 복잡해보이는데, 아래의 식으로부터 출발해서 천천히 구하면 이해가 된다.

출처: https://blog.naver.com/mykepzzang/220846464280

 

적률추정법.pdf
0.10MB

 

 

불편추정량 (Unbiased Estimator)

먼저, 편향(bias)에 대해 알아보자. 우리가 기대하는 "추정량과 모수의 차이"를 편향(bias)라고 한다. 표본들로부터 얻어낸 추정량은 모수에 가까울수록 좋다. 추정량의 기댓값이 모수와 같아지는 것이 가장 바람직한 경우이다. 즉, 편향이 가장 작은 상황을 필요로하는 것이다. 

편향이 0인 상황일 때의 추정량을 불편추정량(Unbiased Estimator)라고 한다.

E(θ^) - θ = 0

--> E(θ^) = θ


표본평균은 모평균의 불편추정량이고, 표본분산은 모분산의 불편추정량이다.

# 주의할 점은 적률법으로 유도한 분산의 점 추정량은 편향추정량(biased estimator)라는 점이다. 편향추정량은 표본을 통해 얻은 추정량과 모수가 일치하지 않음을 의미한다.


정리하자면, 모 평균 추정에 있어서 대표적인 불편 추정량이 표본 평균인 것 처럼, 어떤 통계량의 기대값이 모수에 일치하게되는 통계량을 불편 추정량이라고 한다.

즉, 불편 추정량의 기대값 E(θ^) = 모수 θ
           .. ( 표본 평균의 기대값 E[ x̅ ] = 모 평균 μ )  =>  불편 평균
           .. ( 표본 분산의 기대값 E[s2] = 모 분산 σ2 )  =>  불편 분산
           .. ( 표본 비율의 기대값 E[p] = 모 비율 π )  =>  불편 비율

 

 

추정오차 (Estimator Error)

Error = 점 추정량 - 모수

[ 추정오차 ]

다음과 같은 특징을 갖는다.
평균제곱오차(Mean Squared Error, MSE)에 쓰인다.
- 평균제곱오차(MSE): 오차를 제곱한 값의 기댓값
- 평균제곱오차도 값이 작을수록 좋다. (참값에 가깝다는 의미)

평균제곱오차는 다음과 같이 표기한다.


 

 

최대 우도법 (Maximum Likelihood Method)

우도란 어떤 일이 발생할 가능성(likelihood)을 의미한다. 따라서 최대우도법을 최대가능도 추정이라고 부르기도 한다.
즉, 최대 우도는 결과에 해당하는 각 가설(가능성)마다 계산된 우도값 중 가장 큰 값을 의미한다. 가능성이 가장 큰 것을 고른다는 것이다.

가능성을 추정하려면 먼저, 우도함수(likelihood function)를 정의해야 한다.
우도함수는 확률변수 X1, ..., Xn 의 결합확률밀도함수 f를 모수(θ)에 대한 함수로 볼 때를 말하며, L(x1, x2, ..., xn ; θ) 로 표기한다.


즉, 결합확률밀도함수가 모수에 대한 함수일 때를 우도함수라고 한다.
만약 각 확률변수가 서로 독립이면 우도함수는 각 확률변수의 확률밀도함수의 곱으로 표현된다.

우도함수를 이용해 점 추정하는 방법: 표본 X1, ..., Xn 을 얻을 확률이 가장 높은 θ^ (=최대우도)
다시 말해 주어진 관찰값을 가장 잘 설명해주는 θ^ (theta hat) 을 모수의 추정량으로 한다. 이 추정량을 최대우도 추정량이라 한다. 확률표본의 우도함수 L(x1, x2, ..., xn ; θ) 를 최대로 하는 θ를 θ^ 이라 할 때, θ^을 모수 θ의 최대우도 추정량이라 한다.
우도함수가 최대로되는 θ를 찾기 위해서는 미분을 이용한다. 즉, 극댓값을 찾는 것이다.

아래는 확률분포별로 최대우도 추정량을 구하는 예시이다.
- 이항분포, 포아송분포
- 정규분포

최대우도 추정을 이용해서 점 추정을 해보니 표본평균이 점추정량이 된다. 주의할 점은 평균의 점추정량은 불편추정량이지만, 분산의 점추정량은 편향추정량이라는 것이다. 따라서 표본분산과 분산의 점추정량은 약간 다르다.

출처: https://blog.naver.com/mykepzzang/220863521517

 

[확률과 통계] 53. 통계적 추정(2) - 점 추정(최대우도 추정), Point Estimation(Maximum Likelihood Method)

지난 포스팅에 이어 이번에도 점 추정에 대해 계속 알아봅시다. 이전 포스팅에서 점 추정을 하는 방법 중 '...

blog.naver.com

참고: https://ratsgo.github.io/statistics/2017/09/23/MLE/

 

최대우도추정(Maximum Likelihood Estimation) · ratsgo's blog

이번 글에서는 최대우도추정(Maximum Likelihood Estimation)에 대해 살펴보도록 하겠습니다. 이 글은 Ian Goodfellow 등이 집필한 Deep Learning Book과 위키피디아, 그리고 조현제 님의 자료를 정리했음을 먼저 밝힙니다. 그럼 시작하겠습니다. 최대우도추정 최대우도추정(maximum likelihood estimation)이란 모수(parameter)가 미지의 $θ$인 확률분포에서 뽑은 표본(관측치) $x$들을 바탕

ratsgo.github.io

 

 

카이제곱분포 (Chi-squared Dstribution)

카이제곱 분포(chi-squared distribution) 또는 χ2 분포는 k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이 때 k를 자유도라고 하며, 카이제곱 분포의 매개변수가 된다.  (분산의 퍼져있는 정도를 분포로 보여주는 그래프)

표본을 가지고 모분산을 추론하거나 분포의 차이 등을 알아내고자 할 때 카이제곱분포를 이용한다. 카이제곱 분포는 신뢰구간이나 가설검정 등의 모델에서 자주 등장한다.

카이제곱 분포는 감마 분포의 특수한 형태로 감마 분포에서 k=v/2, theta=2 인 분포를 나타낸다.




자유도(degrees of freedom)는 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다.

크기가 n 인 표본의 관측값(x1, ..., xn)의 자유도는 n-1 이다. 거기서 구한 표본평균도 마찬가지이다. 의미를 살펴보면, (n-1)개를 선택할 때 반드시 1개의 값이 정해지기 때문인데, 예를 들어 5개 숫자의 평균이 3 인 숫자 5개 중 4개를 선택할 수 있지만 한 개의 숫자는 정해지기 때문에  자유도가 4가 되는 것이다.

카이제곱분포의 적률생성함수: Mx(t)

정리하자면, 확률변수 (X1, ..., Xn) 가 서로 독립이고, 각 자유도가 (v1, ..., vn) 인 카이제곱분포를 따른다면, 확률변수 Y=X1 + ... + Xn 은 자유도가 V=v1 + ... + vn 인 카이제곱분포를 따른다.

카이제곱분포를 따르는 n 개의 표본을 뽑고, 이 n 개의 확률표본을 모두 더했을 때의 확률변수들의 총합은 n이 무한대로 커질수록 정규분포를 따른다. (by 중심극한정리)

계산이 번거로우므로 카이제곱분포표를 이용하자.

출처: https://blog.naver.com/mykepzzang/220852102307

 

T 분포

스튜던트 t 분포(Student’s t-distribution)는 정규 분포의 평균을 측정할 때 주로 사용되는 분포

- 새로운 확률변수 정의: 확률변수 Z 는 표준정규분포를 따르고, V는 자유도가 v인 카이제곱분포를 따를 때, 서로 독립인 Z와 V에 대해 새로운 확률변수 T가 정의된다. [ T = Z / (sqrt(V/v)) ]

그리고 확률변수 T는 자유도가 v인 T 분포를 따른다.



실제 V는 자유도가 (n-1)인 카이제곱분포를 따르지만 n-1=v 로 치환한 것이다.

[ 실제 구간 추정에서 사용되는 확률변수 T ]


- 그래프의 모양: 원점에 대해 좌우대칭이며 자유도에 따라 그래프 모양이 달라진다. 그리고 자유도(표본 수와 관련된 정보)가 증가할수록 표준정규분포에 가까워지는데 보통 표본 수가 30 이상이면 표준정규분포와 가깝다.

[ 그래프 ]

즉, 표본 크기가 30보다 작으면 T 분포를 사용해야 한다. 표본의 크기가 작으면 신뢰도가 낮아지기 때문에 표준정규분포보다 예측범위가 좀 더 높은 T 분포를 사용한다.

실제로 T라는 확률변수에 쓰이는 표준정규분포 Z를 찾기 위해서 모집단의 분산을 알아야 한다. 그러나 모분산을 구하기 어려워 "표본분산"을 사용한다. 즉, T분포는 모집단의 분산(혹은 표준편차)이 알려져 있지 않은 경우에 정규분포 대신 이용하는 확률분포라고 볼 수 있다.

T 분포도 마찬가지로 표본평균, 표본분산으로 정의되는 확률변수이기 때문에 표본의 수가 많아질수록 중심극한정리에 의해 결국 정규분포에 수렴한다.

구간추정은 위에서 추축량으로 정의한 확률변수 T 를 이용하여 정규분포의 평균을 계산한다.



계산이 번거로우므로 T-분포표를 이용하자.

출처: https://blog.naver.com/mykepzzang/220853827288

 

 

(추가) F 분포


출처: https://blog.naver.com/mykepzzang/220855136935

 

[확률과 통계] 51. F 분포, Snedecor's F-Distribution

F-분포(F-Distribution)는 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율이 나타...

blog.naver.com

 

 

 

대수의 법칙 (Law of Large Numbers)

대수의 법칙 또는 라플라스의 정리는 큰 모집단에서 무작위로 뽑은 표본의 평균이 전체 모집단의 평균과 가까울 가능성이 높다는 통계와 확률 분야의 기본 개념이다.

기댓값에서 어떤 확률을 가진 사건을 무한히 시행하면 그 사건의 결과는 평균에 수렴한다.

출처: https://ko.wikipedia.org/wiki/%ED%81%B0_%EC%88%98%EC%9D%98_%EB%B2%95%EC%B9%99

 

 

합성곱 (Convolution)

 

합성곱(convolution)은 하나의 함수와 또 다른 함수를 반전 이동한 값을 곱한 다음, 구간에 대해 적분하여 새로운 함수를 구하는 수학 연산자이다.

두 개의 함수 f, g 가 있을 때, 두 함수의 합성곱을 수학 기호로는  f * g  와 같이 표시한다.

합성곱 연산은 두 함수 f, g 가운데 하나의 함수를 반전(reverse), 전이(shift)시킨 다음, 다른 하나의 함수와 곱한 결과를 적분하는 것을 의미한다. 이를 수학 기호로 표시하면 다음과 같다.


또한 g 함수 대신에 f 함수를 반전, 전이 시키는 경우 다음과 같이 표시할 수도 있다. 이 두 연산은 형태는 다르지만 같은 결과값을 갖는다.

 

 


위의 적분에서 적분 구간은 함수 f와 g가 정의된 범위에 따라서 달라진다. 또한 두 확률 변수 X와 Y가 있을 때 각각의 확률 밀도 함수를 f와 g라고 하면, X+Y의 확률 밀도 함수는 f * g 로 표시할 수 있다.


출처: https://ko.wikipedia.org/wiki/%ED%95%A9%EC%84%B1%EA%B3%B1

 

 

중심극한정리 (Central Limit Theorem)

중심 극한 정리(central limit theorem, 약자 CLT)는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다. 즉, 임의의 모집단에서 표본이 충분히 크다면, 이 표본평균의 분포는 정규분포에 근사한다.
(참고: 확률변수 Xi 가 임의의 표본 추출의 결과일 때, 평균은 표본평균이다.)

매우 불규칙한 분포도 충분히 많은 수를 더하면 중심극한정리에 따라 결국 정규분포로 수렴한다.


예시: 균등분포 (uniform distribution) 으로 설명한 중심극한정리
--> 각 표본은 균등분포이지만, 표본이 증가할수록 표본평균은 정규분포를 따른다.



알아야 할 개념
- 표본평균은 정규분포이다.
- 표본평균을 표준화하면 표준정규분포이다.

따라서 당연히 표본평균을 표준화하면 그 결과의 분포는 표준정규분포에 근사한다.



중심극한정리의 증명은 적률생성함수를 이용한다. 증명의 핵심은 표본평균의 적률생성함수가 N 이 무한대일 때, 어떤 적률생성함수로 수렴하는지에 대한 것이다. (표준정규분포의 적률생성함수로 수렴한다.)

어떤 Y 라는 확률변수가 X1 ~ Xn 까지의 확률변수의 합일 때, Y도 중심극한 정리에 의해 n 이 무한대로 가면, 정규분포를 따른다.

 

--> Y ~ N(n*u, n*sigma^2)
[ Y 의 정규분포 ]


중심극한정리는 주어진 조건에 따라 여러 가지가 있다.




출처: https://ko.wikipedia.org/wiki/%EC%A4%91%EC%8B%AC_%EA%B7%B9%ED%95%9C_%EC%A0%95%EB%A6%AC








+ Recent posts