확률분포함수 (위: 이산확률분포, 아래: 연속확률분포)

 

유명확률분포함수.pdf
1.32MB

함수공식은 위 pdf 참고

 

[+] 정규분포의 확률밀도함수 이해하기

기초통계학의숨은원리이해하기_정규분포이해하기.pdf
0.59MB

 

원래 정규분포를 그리는 종모양 함수는 위와 같은데 확률밀도함수의 조건

(면적의 합=1, 주어진 확률밀도함수를 따르는 확률변수의 분산=1)

을 만족시키기 위해 다음과 같이 변경됨.

 

 

확률분포

- 확률변수: 시행으로부터 형성된 표본공간을 정의역으로 하는 함수의 치역
- 도수분포표: 확률변수를 계급값으로 그 확률변수에 대응되는 표본공간의 원소의 개수를 도수를 조사하여 만든 표

표본공간은 미래의 사건에 대한 모든 경우를 담고 있어서 도수분포표를 만들게 되면 미래의 사건에 대한 통계적 의미를 얻을 수 있다. 그리고 도수분포표를 통해 상대도수를 표시하게 되면 이는 그 확률변수의 확률이 된다. 이러한 상대도수들을 통해 상대도수분포표를 만들 수 있는데 이것이 확률분포이다. 이처럼 확률변수의 함수적인 구조를 통해서 얻은 자료들을 미래의 사건에 대한 통계적 자료로 보고, 확률분포의 대표값과 산포도를 구했을 시 미래의 사건에 대한 정보로 쓸 수 있다. 이런 정보를 바탕으로 미래의 사건에 대해 예측할 수 있다.

또한 확률변수는 표본공간을 이용하여 임의로 설정할 수 있다. 이 때 확률변수의 상태는 이산형이거나 연속형일 수 있는데, 각각 이산확률분포와 연속확률분포의 확률변수가 된다. 확률변수의 상태와는 무관하게 위의 두 확률분포는 모두 각 확률변수가 표본공간에 어느 정도의 비율로 존재하는지 시각적으로 표현한 것이다.

이산확률분포 중에는 표본공간을 형성하는 시행이 독립시행인 경우에 생성되는 확률분포인 이항분포가 있다. 이항분포는 시행의 횟수가 충분히 커지면 정규분포의 형태로 근사하게 된다. 또한 자연현상이나 사회현상의 통계자료를 정리하여 도표를 통해 그래프로 나타냈을 때 그 그래프 또한 대부분 정규분포에 가깝다. 그리고 정규분포의 확률밀도함수도 알려져 있다.

연속확률분포는 확률변수가 연속적으로 존재하는데 이는 곧 확률변수를 만들어내는 표본공간이 무한집합임을 의미하며 기하학적 확률을 통해 확률분포를 완성하게 된다.

정규분포를 표준정규분포로 변형시킨 뒤 확률을 구할 때, 정규분포에서의 비율과 표준정규분포에서의 비율이 동일하다. 정규분포를 선형변환 해주어서 만든 것이 표준정규분포이기 때문이다. 왜 선형변환을 하냐면, 종모양의 분포가 모두 같지 않기 때문이다. 즉, 정규분포도 형태가 다양하기 때문에 그래프를 놓고 비교하는데 어려움이 있어 평균=0, 분산=1 인 N(0, 1) --> 표준 정규분포를 만드는 것이다.

* 선형변환: 원래의 값에 더하거나 빼거나 곱하거나 나눗셈을 한 변환 (사칙연산을 수행한 결과)으로, 이런 경우 데이터 그래프의 분포가 변하지 않는다는 장점이 있다.

무튼 표준정규분포를 이용하면 표준편차 사이 영역의 확률을 알 수 있다.

출처: https://oooasd73.blog.me/221465832498

 

#4. 정규분포와 표준정규분포

안녕하세요 두두의 심리블로그, '두두'입니다. 정리를 하면 할수록 어려운 통계인데요, 오늘은 ...

blog.naver.com

 

 

표본평균

표본 평균(sample mean)이란 모집단(population)의 모 평균(population mean)에 대비되는 개념으로서 이산 확률 분포와 연속 확률 분포에서 다루었던 확률 변수에 대해서 반(反)하여 표본들을 추출하여 그 표본들의 평균을 구하고 그 평균의 집단을 대표하는 값을 일컫는다.

모집단에서 확률변수 의 평균, 분산, 표준편차를 각각 mσ2, σ 라 하고 어떤 모집단에서 크기 인 표본을 추출하는 경우, 추출된 n개의 변량을 각각 X1, X2, X3, ··· , Xn 이라 할 때, 다음을 표본평균이라 한다.

 

[ 표본평균 ]
[ 기호 ]
[ 표본평균의 평균, 분산, 표준편차 ]

왜 표본평균을 사용할까 ?

통계학에서는 모집단(=전체집합, population)의 평균과 분산을 가리켜 모집단의 정보를 담고 있는 수(=모수, parameter) 라 한다. 그런데 대통령선거와 여론조사를 연관지어 생각해보면, 현실의 많은 상황에서 모집단을 전수조사하기 위해선 많은 시간과 노력이 필요하다. 전수조사 하는 것이 불가능한 경우도 빈번하다. 이 때문에 통계학에서는 전체집합 중 일부만을 추출(sampling)하여 표본(=부분집합, sample)의 평균(=표본평균)이나 분산(=표본평균의 분산)을 구하고 이를 바탕으로 모집단의 평균이나 분산을 추정(infer)하는 기법이 많이 발달하게 되었다. 표본평균이나 표본분산처럼 표본의 정보를 담고 있고 모수를 추정하기 위해 사용하는 개념을 추정량(estimator)라고 한다. 즉, 추정량을 사용하여 모수를 추정하는 것이다.

 

표본 분산(sample covarance)은 표본의 분산이다. 모집단(population)의 분산인 모 분산(population covariance)과는 다르다. 또한, 표본평균의 분산과도 다르다.

[ 표본 분산, N은 표본의 크기 ]

표본 분산에서 표본 크기가 N인데도 N-1 로 나누는 이유 ?

표본평균과 표본분산을 구하는 목적은 모평균과 모분산을 추정하기 위해서이다. 즉, 우리가 구한 표본분산은 모분산에 가까운 값을 가질수록 좋은 것이다. 예를 들어 표본이 { x1, x2, x3 } 로 주어졌을 때, 모평균의 정확한 값을 안다면 표본분산은 다음과 같이 정의하는 것이 자연스럽다.

그러나, 현실에서는 모평균을 알지 못하고 표본평균만 사용할 수 있는 상황이 많다. (거의 대부분이 그러하다.) 단 위 식에서 모평균 대신 표본평균을 사용하는 것은 자칫 심각한 오류를 초래할 수 있다. 왜냐하면, 표본평균은 주어진 표본의 분산이 가장 작게 나오도록 설정된 값이기 때문이다. 다시 말해 모평균 u 와 표본 { x1, x2, x3 }와 표본평균에 대해 다음과 같은 부등식이 성립하기 때문에

표본분산을 아래와 같이 정의할 경우 모분산보다 작은 값을 갖게 된다.

[ 잘못된 수식 ]

그래서 처음 생각했던 위와 같은 수식에다가 n / (n-1) 을 곱하여 값을 크게하는 것이다.

[ 표본 분산 ]

출처: https://sodong212.blog.me/130152525536

 

표본분산 s² 을 구할 때 n이 아니라 n-1로 나누는 이유

* 이번 포스팅에서 다루는 내용을 이해하기 위해서는, 고등학교 수학의 평균과 분산의 정의, ∑(수열의 합)...

blog.naver.com

 

 

표본평균의 분포

정리하자면, 표본집단들로부터 모집단의 특성을 알기 위해 표본평균의 분포를 구한다. 즉, 표본평균의 평균을 통해서 모집단의 평균을 구하고 표본평균의 분산을 통해서 모집단의 분산을 구하는 것이다. 왜냐하면, 전수조사를 할 수 없기에 표본조사를 하는 것인데, 이를 통해 알지 못하는 모집단의 통계적 특성을 추론할 수 있기 때문이다.

우선 표본평균은 확률변수이다. 이 점은 헷갈리기 쉬우니 숙지해야 한다. N 개의 표본을 뽑을 때마다 이들의 평균은 같을 수도, 다를 수도 있기 때문에 확률변수(=함수)로 본다.

확률변수는 확률분포가 정규분포이다. 이에 대한 증명은 아래 링크를 참고하면 된다. 아니면 직접 X=1, ..., 4 로 두고 표를 그려보면 값이 대칭적인 걸 알 수 있다. 아무튼 표본평균은 확률변수이고, 확률변수는 정규분포이다. 따라서 표본평균의 정규분포의 성질을 이용해서 모평균을 추정할 수 있다. 사실 표본평균의 평균과 분산은 모평균, 모분산과 동일하다. 이에 대한 증명도 아래 링크를 참고하거나 직접 작은 표본 크기를 토대로 값을 계산해보면 같다는 걸 알 수 있다.

핵심은 모든 정규분포는 표준화를 거쳐 표준정규분포로 변환할 수 있다는 점이다. 표준화란 "(확률변수 - 평균) / 표준편차" 를 계산하여 얻는 값들의 집합인 새로운 확률변수를 두는 것인데, 새 확률변수(이하 Z)는 표준정규분포 N(0, 1) 를 따른다.

표준화에 필요한 평균과 표준편차는 정규분포 N(m, sigma^2) 를 따르기 때문에 구할 수 있다. 참고로 평균은 표준평균의 평균을 쓰면 되고, 표준편차는 확률변수의 표준편차이다. 즉, 특정 확률변수 (Xi) 에 대해 표준화를 수행한다면 해당 변수의 표준편차를 쓰면 되고, 표본평균 (X_bar)을 표준화할 때는 표본평균의 표준편차를 쓰면 된다. 표본평균의 표준편차는 위에 있다시피 sigma / sqrt(N) 이다.


그리고 표준정규분포의 범위 (예를 들어 -1.96 ~ 1.96) 에 표준화된 변수(=Z)가 놓일 확률이 0.95 라 할 때, P(-1.96 <= Z <= 1.96) 식을 평균(m)을 기준으로 고치면 "모평균이 특정 범위에 속할 확률"을 구할 수 있는 것이다. 아까 언급했다시피 표본평균의 평균(=m)은 곧 모평균이기 때문이다.

확률이 0.95라고 했으니, 모평균 m이 취할 수 있는 값이 식의 부등식 범위 안에 놓일 것으로 추정이 되는데 이는 신뢰도 95%로 믿을만 하다고 본다. (확률의 의미)

다시 말해서, 모집단으로부터 N 개의 표본을 '한 번만' 임의/복원 추출하여 계산된 표본평균 값과 표본의 크기 N, 그리고 표준편차를 토대로 모평균을 추정한다. 모평균(m)은 표본평균과 비슷한 값을 가질 것으로 예상되는데, 얻어진 표본평균의 값으로부터 표준화 이후 m을 기준으로 수정한 식으로부터 m 의 범위에 해당되는 구간 내에 존재할 확률이 (위의 경우) 95%라는 것이다.

아래는 수정한 식을 어떻게 변형하는지에 대한 것이다. 모평균을 m 대신 u 라고 표현했다. Z는 범위라고 보면 된다.

[ 수정한 식 ㅎㅎ ]

이미지 출처

근데 95%라는건 생각보다 커서, 표본평균의 확률밀도함수를 그래프 상에 정규분포와 함께 둬보면 그 범위가 넓어 모평균이 포함되어 있다. 물론 우연히 n개의 표본의 값들이 모두 비정상적으로 작다거나 큰 경우가 발생할 수 있는데, 이는 모평균이 있을거라고 추정한 구간 내에 x=m이라는 직선이 존재하지 않게 된다. (x=m 은 정규분포의 x축 중간값이다.)

이렇게 모평균이 있을거라고 추정한 구간을 신뢰구간이라 하며, 언급한 95%는 "신뢰도"라 한다. 그리고 범위는 "신뢰구간의 길이"이다. 신뢰도를 정하면 신뢰구간의 길이는 바뀌지 않는다. 그리고 표본분산을 통계적 추정의 모분산 대신 사용할 수 있다. 오차가 미미해서 사용해도 무방하다고 한다.

따라서 실제 표본조사를 통해 모평균을 추정할 때에는, 표본평균과 표본분산, 그리고 표본 크기에 관한 정보를 토대로 신뢰구간을 잡아서 추정하면 된다.

실제로 n 개 표본 추출 시 나오는 변량들은 X1, X2, ..., Xn 이다. 실제로 구할 수 있는 것은 표본들의 평균인 표본평균과 표본분산 (!=표본평균의 분산)이다. 표본분산은 한 번 뽑은 n 개의 표본들의 자체적인 분산이다.

 

 

참고:

http://blog.naver.com/PostView.nhn?blogId=dalsapcho&logNo=20147545698&parentCategoryNo=&categoryNo=11&viewDate=&isShowPopularPosts=false&from=postView

 

표본평균의 평균과 분산, 통계적 추정 - 개념, 성질, 적용

::표본평균의 평균과 분산, 통계적 추정::- 개념, 성질, 적용 1. 들어가며 저는 대학을 졸업한 사람으로 수...

blog.naver.com

http://blog.naver.com/PostView.nhn?blogId=dalsapcho&logNo=20158545056&categoryNo=11&parentCategoryNo=0&viewDate=¤tPage=1&postListTopCurrentPage=1&from=postView&userTopListOpen=true&userTopListCount=5&userTopListManageOpen=false&userTopListCurrentPage=1

 

[총정리] 기하학적 의미를 갖는 함수 관련 수식들

::[총정리] 기하학적 의미를 갖는 함수 관련 수식들:: 1. 개념 소개 교과과정에는 소개되지 않지만 수능이...

blog.naver.com

 

 

 

모집단 (Population)

모집단(母集團, 영어: population 또는 universe)이란 정보를 얻고자 하는 관심 대상의 전체집합을 말한다. 모집단은 우리가 무엇을 알려고 하느냐에 따라 다르게 정의되기 때문에 모집단을 명확하게 정의하는 것은 매우 중요하다. 모집단의 개체인 사람은 성별, 지역정당 등과 같은 범주적 특성과 나이, 소득, 키, 몸무게 등과 같은 수량적인 특성을 띄고 있다. 통계학에선 사람들의 결합인 모집단의 범주적 특성에 관심을 가진다. 이들의 범주적 특성인 성별, 지역정당에 따른 소득의 변화와 같은 수량적 특성에 주목하는데, 이는 변수이면서 확률적 특성을 가지고 있다고 해서 확률변수라고 한다.

 

 

확률 변수 (Random Variable)

일정한 확률을 갖고 발생하는 사건(event) 또는 사상(事象)에 수치가 부여되는 함수

일반적으로 대문자 X로 나타낸다. 확률변수 X의 구체적인 값에 대해서는 보통 소문자를 사용해서, 예를 들어 X가 p의 확률로 x의 값을 가진다는 것은 P(X=x) = p 등의 확률함수로 표현할 수 있다.

어떤 확률변수가 어떤 특정 값을 취할 확률을 함수로 나타낸 것은 확률함수라고 하고, 그 함수의 모든 가능한 값들에 할당될 수 있는 모든 확률을 식으로 정의하거나 이를 시각화하여 나타낸 것이 바로 확률분포이다.


보통 확률변수 X가 가질 수 있는 값의 범위가 이산적인지/연속적인지(셀 수 있는지/없는지)에 따라 이산확률변수(discrete random variable)연속확률변수(continuous random variable)로 나뉜다. 다만 모든 확률변수가 이 두 가지의 형태인 것은 아니다. 예를 들어 동전을 던져서 앞면이 나오면 0부터 1 사이의 아무 숫자를, 뒷면이 나오면 숫자 1/2을 불러주는 확률변수는 어느 둘에도 속하지 않는다.

[ 출처: 나무위키 ]

누적 분포 함수(cumulative distribution function, cdf)는 어떤 확률 분포에 대하여 확률 변수가 특정 값보다 작거나 같은 확률을 의미한다. --> F(x)

확률 질량 함수(probability mass function, pmf)는 이산 확률 변수 X가 취할 수 있는 값 x1, x2, x3, ... 의 각각에 대해서 확률 P(X=x1), P(X=x2), P(X=x3), ... 을 대응시켜주는 관계이다.


확률 밀도 함수(probability density function, pdf)는 연속 확률 변수 X에 관한 확률을 결정하는 함수 f(x)이다. 기본적으로 연속형 확률변수의 경우에는 개별 값들에 대한 확률값이 존재하지 않는다. 연속의 경우에는 반드시 구간단위로 확률이 존재할 수 밖에 없는데 확률밀도 함수는 특정 지점(작은 구간)에대한 값을 말한다.
[ 확률 밀도 함수의 정의, F 는 누적분포함수 ]

 

 

평균 (기대값, Expected Value)

확률 변수의 기댓값(期待값, 영어: expected value)은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률한 것을 전체 사건에 대해 합한 값이다. 이것은 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있다.

모 평균(population mean) μ는 모 집단의 평균이다. 모두 더한 후 전체 데이터 수 n으로 나눈다. 확률 변수의 기댓값이다.

[ 출처: 위키백과 ]

 

 

분산 (Variance)

어떤 확률변수의 분산(分散, 영어: variance, 변량)은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다.

분산보다는 분산의 제곱근인 표준편차가 더 자주 사용된다. 분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값(관측값-평균)의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

모 분산(population variance) σ2은 모 집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.

표본 분산(sample variance) s2은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.

[ 출처: 위키백과 ]

분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다. 정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a2배가 된다. 식으로 쓰면 다음과 같다.

분포를 가늠하는 여러 가지 수치 가운데 분산을 사용하는 이유 중에 하나로는 독립된 두 확률변수의 합의 분산은 각각의 분산의 합과 같다는 성질이 있다. 더 일반적으로 쓰면 다음과 같다.

 

 

표준편차 (Standard Deviation)

표준 편차(標準 偏差, 영어: standard deviation)는 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근으로 정의된다. 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다. 통계학과 확률에서 주로 확률의 분포, 확률변수 혹은 측정된 인구나 중복집합을 나타낸다. 일반적으로 모집단의 표준편차는 σ (시그마)로, 표본의 표준편차는 S (에스)로 나타낸다.

편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다.

표준 편차(standard deviation)는 분산을 제곱근한 것이다. 제곱해서 값이 부풀려진 분산을 제곱근해서 다시 원래 크기로 만들어준다.

모 표준 편차(population standard deviation) σ는 모집단의 표준 편차이다. 모 분산 σ2에 제곱근을 씌워서 구한다.

표본 표준 편차(sample standard deviation) s는 표본의 표준 편차이다. 표본 분산 s2에 제곱근을 씌워서 구한다.

 

 

공분산 (Covariance)

공분산(共分散, 영어: covariance)은 2개의 확률변수의 상관정도를 나타내는 값이다.(1개의 변수의 이산정도를 나타내는 분산과는 별개임) 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면, 공분산의 값은 양수가 될 것이다. 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 된다.

이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

 

[ 출처: 위키백과 ]

 

 

상관 분석 (Correlation Analysis)

상관 분석(correlation analysis)은 확률론과 통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.

단순히 두 개의 변수가 어느 정도 강한 관계에 있는가를 측정하는 단순상관분석(simple correlation analysis)
3개 이상의 변수들간의 관계에 대한 강도를 측정하는 다중상관분석이 있다. 다중상관분석에서 다른 변수들과의 관계를 고정하고 두 변수만의 관계에 대한 강도를 나타내는 것을 편상관계분석(partial correlation analysis)이라고 한다. 이때 상관관계가 0<ρ≤+1 이면 양의 상관, -1≤ρ<0 이면 음의 상관, ρ=0이면 무상관이라고 한다. 하지만 0인 경우 상관이 없다는 것이 아니라 선형의 상관관계가 아니라는 것이다.

[ 상관 분석의 예시 ]

이미지 출처

피어슨 상관 계수(Pearson correlation coefficient)는 두 변수간의 관련성을 구하기 위해 이용하는 두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치이다. 개념은 다음과 같다. 피어슨 상관 계수는 코시-슈바르츠 부등식에 의해 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관 관계, 0은 선형 상관 관계 없음, -1은 완벽한 음의 선형 상관 관계를 의미한다.

r = X와 Y가 함께 변하는 정도 / X와 Y가 각각 변하는 정도
( = 두 변수의 공분산 을 표준 편차 의 곱으로 나눈 값 )

- 결과의 해석:

r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 결정계수 (coefficient of determination) 는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.

일반적으로

r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계

로 해석한다.

서로 다른 상관 계수 값 (ρ)을 갖는 산포도 다이어그램의 예
여러 데이터셋와 각 셋의  x와  y의 상관 계수. 상관 관계는 선형 관계의 비선형성 및 방향을 반영하지만 그 관계의 기울기 또는 비선형 관계의 여러 측면을 반영하지 않는다. NB : 중앙의 그림은 기울기가 0이지만이 경우  Y  의 분산이 0이므로 상관 계수가 정의되지 않는다.

 

스피어만 상관계수(Spearman correlation coefficient)는 데이터가 서열척도인 경우 즉 자료의 값 대신 순위를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관계수를 구한다. 두 변수 간의 연관 관계가 있는지 없는지를 밝혀주며 자료에 이상점이 있거나 표본크기가 작을 때 유용하다. 스피어만 상관계수는 -1과 1 사이의 값을 가지는데 두 변수 안의 순위가 완전히 일치하면 +1이고, 두 변수의 순위가 완전히 반대이면 -1이 된다. 예를 들어 수학 잘하는 학생이 영어를 잘하는 것과 상관있는지 없는지를 알아보는데 쓰일 수 있다.

스피어만 상관 계수는 순위가 매겨진 변수 간의 피어슨 상관 계수 로 정의된다

피어슨의 상관 계수가 두 변수 사이의 선형 관계를 평가하는 반면 스피어만의 상관 계수는 단조 적 관계 (선형인지 여부는 아님)를 평가한다. 중복 데이터 값이 없으면 각 변수가 다른 변수의 완벽한 단조 함수 일 때 +1 또는 -1의 완벽한 스피어만 상관 관계가 발생한다.

위 그래프처럼 두 변수 X와 Y가 선형 관계가 아니더라도 스피어만 상관 계수는 1이 될 수 있다. 하지만 +1의 피어슨 상관 계수를 보장하지는 않는다.
위 그래프처럼 데이터가 뚜렷한 경향성을 보이지 않을 경우에 스피어만 상관 계수와 피어슨 상관 계수는 비슷한 값을 가진다.
스피어만 상관 계수는 피어슨 상관 계수에 비해 이상치에 덜 민감하다. 이는 스피어만 상관 계수의 ρ가 이상치를 그 값이 아닌 순위로써만 고려하기 때문이다.

 

크론바흐 알파 계수(Cronbach's alpha)의 신뢰도 계수 α는 검사의 내적 일관성을 나타내는 값으로서 한 검사 내에서의 변수들 간의 평균상관관계에 근거해 검사문항들이 동질적인 요소로 구성되어 있는지를 분석하는 것이다. 동일한 개념이라면 서로 다른 독립된 측정 방법으로 측정했을 때 결과가 비슷하게 나타날 것이라는 가정을 바탕으로 한다.

예를 들어 설문지 조사의 경우, 같은 내용의 질문을 다른 형태로 반복하여 질문한 다음 같게 대답했는지를 검사하여 신뢰도를 알아 볼 수 있다. 일반적으로는 요인분석을 하여 요인들을 추출하고 이들 요인들이 동질 변수들로 구성되어 있는지를 확인할 때 이용한다. 사전조사나 같은 속성의 질문을 반복하여 신뢰도를 높일 수 있다.

 

 

+ Recent posts