카이제곱분포 (Chi-squared Dstribution)
카이제곱 분포(chi-squared distribution) 또는 χ2 분포는 k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이 때 k를 자유도라고 하며, 카이제곱 분포의 매개변수가 된다. (분산의 퍼져있는 정도를 분포로 보여주는 그래프)
표본을 가지고 모분산을 추론하거나 분포의 차이 등을 알아내고자 할 때 카이제곱분포를 이용한다. 카이제곱 분포는 신뢰구간이나 가설검정 등의 모델에서 자주 등장한다.
카이제곱 분포는 감마 분포의 특수한 형태로 감마 분포에서 k=v/2, theta=2 인 분포를 나타낸다.
자유도(degrees of freedom)는 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다.
크기가 n 인 표본의 관측값(x1, ..., xn)의 자유도는 n-1 이다. 거기서 구한 표본평균도 마찬가지이다. 의미를 살펴보면, (n-1)개를 선택할 때 반드시 1개의 값이 정해지기 때문인데, 예를 들어 5개 숫자의 평균이 3 인 숫자 5개 중 4개를 선택할 수 있지만 한 개의 숫자는 정해지기 때문에 자유도가 4가 되는 것이다.
카이제곱분포의 적률생성함수: Mx(t)
정리하자면, 확률변수 (X1, ..., Xn) 가 서로 독립이고, 각 자유도가 (v1, ..., vn) 인 카이제곱분포를 따른다면, 확률변수 Y=X1 + ... + Xn 은 자유도가 V=v1 + ... + vn 인 카이제곱분포를 따른다.
카이제곱분포를 따르는 n 개의 표본을 뽑고, 이 n 개의 확률표본을 모두 더했을 때의 확률변수들의 총합은 n이 무한대로 커질수록 정규분포를 따른다. (by 중심극한정리)
계산이 번거로우므로 카이제곱분포표를 이용하자.
출처: https://blog.naver.com/mykepzzang/220852102307
T 분포
스튜던트 t 분포(Student’s t-distribution)는 정규 분포의 평균을 측정할 때 주로 사용되는 분포
- 새로운 확률변수 정의: 확률변수 Z 는 표준정규분포를 따르고, V는 자유도가 v인 카이제곱분포를 따를 때, 서로 독립인 Z와 V에 대해 새로운 확률변수 T가 정의된다. [ T = Z / (sqrt(V/v)) ]
그리고 확률변수 T는 자유도가 v인 T 분포를 따른다.
- 그래프의 모양: 원점에 대해 좌우대칭이며 자유도에 따라 그래프 모양이 달라진다. 그리고 자유도(표본 수와 관련된 정보)가 증가할수록 표준정규분포에 가까워지는데 보통 표본 수가 30 이상이면 표준정규분포와 가깝다.
즉, 표본 크기가 30보다 작으면 T 분포를 사용해야 한다. 표본의 크기가 작으면 신뢰도가 낮아지기 때문에 표준정규분포보다 예측범위가 좀 더 높은 T 분포를 사용한다.
실제로 T라는 확률변수에 쓰이는 표준정규분포 Z를 찾기 위해서 모집단의 분산을 알아야 한다. 그러나 모분산을 구하기 어려워 "표본분산"을 사용한다. 즉, T분포는 모집단의 분산(혹은 표준편차)이 알려져 있지 않은 경우에 정규분포 대신 이용하는 확률분포라고 볼 수 있다.
T 분포도 마찬가지로 표본평균, 표본분산으로 정의되는 확률변수이기 때문에 표본의 수가 많아질수록 중심극한정리에 의해 결국 정규분포에 수렴한다.
구간추정은 위에서 추축량으로 정의한 확률변수 T 를 이용하여 정규분포의 평균을 계산한다.
계산이 번거로우므로 T-분포표를 이용하자.
출처: https://blog.naver.com/mykepzzang/220853827288
(추가) F 분포
출처: https://blog.naver.com/mykepzzang/220855136935
'Machine Learning > Statistics' 카테고리의 다른 글
통계적 추정 - 구간 추정(신뢰구간) (0) | 2019.05.28 |
---|---|
통계적 추정 - 점 추정(적률법, 최대우도법) (0) | 2019.05.28 |
대수의 법칙, 중심극한정리 (0) | 2019.05.28 |
확률 분포, 표본평균의 분포 (2) | 2019.05.24 |
확률과 통계 기초 (0) | 2019.05.24 |