카이제곱 분포(chi-squared distribution) 또는 χ2 분포는 k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이 때 k를 자유도라고 하며, 카이제곱 분포의 매개변수가 된다. (분산의 퍼져있는 정도를 분포로 보여주는 그래프)
표본을 가지고 모분산을 추론하거나 분포의 차이 등을 알아내고자 할 때 카이제곱분포를 이용한다. 카이제곱 분포는 신뢰구간이나 가설검정 등의 모델에서 자주 등장한다.
카이제곱 분포는 감마 분포의 특수한 형태로 감마 분포에서 k=v/2, theta=2 인 분포를 나타낸다.
자유도(degrees of freedom)는 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다.
크기가 n 인 표본의 관측값(x1, ..., xn)의 자유도는 n-1 이다. 거기서 구한 표본평균도 마찬가지이다. 의미를 살펴보면, (n-1)개를 선택할 때 반드시 1개의 값이 정해지기 때문인데, 예를 들어 5개 숫자의 평균이 3인 숫자 5개 중 4개를 선택할 수 있지만 한 개의 숫자는 정해지기 때문에 자유도가 4가 되는 것이다.
카이제곱분포의 적률생성함수: Mx(t)
정리하자면, 확률변수 (X1, ..., Xn) 가 서로 독립이고, 각 자유도가 (v1, ..., vn) 인 카이제곱분포를 따른다면, 확률변수 Y=X1 + ... + Xn 은 자유도가 V=v1 + ... + vn 인 카이제곱분포를 따른다.
카이제곱분포를 따르는 n 개의 표본을 뽑고, 이 n 개의 확률표본을 모두 더했을 때의 확률변수들의 총합은 n이 무한대로 커질수록 정규분포를 따른다. (by 중심극한정리)