확률과 통계 기초

r4v3n-k 2019. 5. 24. 17:57

2019. 5. 24. 17:57

모집단 (Population)

모집단(母集團, 영어: population 또는 universe)이란 정보를 얻고자 하는 관심 대상의 전체집합을 말한다. 모집단은 우리가 무엇을 알려고 하느냐에 따라 다르게 정의되기 때문에 모집단을 명확하게 정의하는 것은 매우 중요하다. 모집단의 개체인 사람은 성별, 지역정당 등과 같은 범주적 특성과 나이, 소득, 키, 몸무게 등과 같은 수량적인 특성을 띄고 있다. 통계학에선 사람들의 결합인 모집단의 범주적 특성에 관심을 가진다. 이들의 범주적 특성인 성별, 지역정당에 따른 소득의 변화와 같은 수량적 특성에 주목하는데, 이는 변수이면서 확률적 특성을 가지고 있다고 해서 확률변수라고 한다.

확률 변수 (Random Variable)

일정한 확률을 갖고 발생하는 사건(event) 또는 사상(事象)에 수치가 부여되는 함수

일반적으로 대문자 X로 나타낸다. 확률변수 X의 구체적인 값에 대해서는 보통 소문자를 사용해서, 예를 들어 X가 p의 확률로 x의 값을 가진다는 것은 P(X=x) = p 등의 확률함수로 표현할 수 있다.

어떤 확률변수가 어떤 특정 값을 취할 확률을 함수로 나타낸 것은 확률함수라고 하고, 그 함수의 모든 가능한 값들에 할당될 수 있는 모든 확률을 식으로 정의하거나 이를 시각화하여 나타낸 것이 바로 확률분포이다.

보통 확률변수 X가 가질 수 있는 값의 범위가 이산적인지/연속적인지(셀 수 있는지/없는지)에 따라 이산확률변수(discrete random variable)와 연속확률변수(continuous random variable)로 나뉜다. 다만 모든 확률변수가 이 두 가지의 형태인 것은 아니다. 예를 들어 동전을 던져서 앞면이 나오면 0부터 1 사이의 아무 숫자를, 뒷면이 나오면 숫자 1/2을 불러주는 확률변수는 어느 둘에도 속하지 않는다.

누적 분포 함수(cumulative distribution function, cdf)는 어떤 확률 분포에 대하여 확률 변수가 특정 값보다 작거나 같은 확률을 의미한다. --> F(x)

확률 질량 함수(probability mass function, pmf)는 이산 확률 변수 X가 취할 수 있는 값 x1, x2, x3, ... 의 각각에 대해서 확률 P(X=x1), P(X=x2), P(X=x3), ... 을 대응시켜주는 관계이다.

확률 밀도 함수(probability density function, pdf)는 연속 확률 변수 X에 관한 확률을 결정하는 함수 f(x)이다. 기본적으로 연속형 확률변수의 경우에는 개별 값들에 대한 확률값이 존재하지 않는다. 연속의 경우에는 반드시 구간단위로 확률이 존재할 수 밖에 없는데 확률밀도 함수는 특정 지점(작은 구간)에대한 값을 말한다.
[ 확률 밀도 함수의 정의, F 는 누적분포함수 ]

평균 (기대값, Expected Value)

확률 변수의 기댓값(期待값, 영어: expected value)은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다. 이것은 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있다.

모 평균(population mean) μ는 모 집단의 평균이다. 모두 더한 후 전체 데이터 수 n으로 나눈다. 확률 변수의 기댓값이다.

분산 (Variance)

어떤 확률변수의 분산(分散, 영어: variance, 변량)은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다.

분산보다는 분산의 제곱근인 표준편차가 더 자주 사용된다. 분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값(관측값-평균)의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

모 분산(population variance) σ2은 모 집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.

표본 분산(sample variance) s2은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.

분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다. 정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a2배가 된다. 식으로 쓰면 다음과 같다.

분포를 가늠하는 여러 가지 수치 가운데 분산을 사용하는 이유 중에 하나로는 독립된 두 확률변수의 합의 분산은 각각의 분산의 합과 같다는 성질이 있다. 더 일반적으로 쓰면 다음과 같다.

표준편차 (Standard Deviation)

표준 편차(標準偏差, 영어: standard deviation)는 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근으로 정의된다. 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다. 통계학과 확률에서 주로 확률의 분포, 확률변수 혹은 측정된 인구나 중복집합을 나타낸다. 일반적으로 모집단의 표준편차는 σ (시그마)로, 표본의 표준편차는 S (에스)로 나타낸다.

편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다.

표준 편차(standard deviation)는 분산을 제곱근한 것이다. 제곱해서 값이 부풀려진 분산을 제곱근해서 다시 원래 크기로 만들어준다.

모 표준 편차(population standard deviation) σ는 모집단의 표준 편차이다. 모 분산 σ2에 제곱근을 씌워서 구한다.

표본 표준 편차(sample standard deviation) s는 표본의 표준 편차이다. 표본 분산 s2에 제곱근을 씌워서 구한다.

공분산 (Covariance)

공분산(共分散, 영어: covariance)은 2개의 확률변수의 상관정도를 나타내는 값이다.(1개의 변수의 이산정도를 나타내는 분산과는 별개임) 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면, 공분산의 값은 양수가 될 것이다. 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 된다.

이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

상관 분석 (Correlation Analysis)

상관 분석(correlation analysis)은 확률론과 통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.

단순히 두 개의 변수가 어느 정도 강한 관계에 있는가를 측정하는 단순상관분석(simple correlation analysis)
3개 이상의 변수들간의 관계에 대한 강도를 측정하는 다중상관분석이 있다. 다중상관분석에서 다른 변수들과의 관계를 고정하고 두 변수만의 관계에 대한 강도를 나타내는 것을 편상관계분석(partial correlation analysis)이라고 한다. 이때 상관관계가 0<ρ≤+1 이면 양의 상관, -1≤ρ<0 이면 음의 상관, ρ=0이면 무상관이라고 한다. 하지만 0인 경우 상관이 없다는 것이 아니라 선형의 상관관계가 아니라는 것이다.

이미지 출처

피어슨 상관 계수(Pearson correlation coefficient)는 두 변수간의 관련성을 구하기 위해 이용하는 두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치이다. 개념은 다음과 같다. 피어슨 상관 계수는 코시-슈바르츠 부등식에 의해 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관 관계, 0은 선형 상관 관계 없음, -1은 완벽한 음의 선형 상관 관계를 의미한다.

r = X와 Y가 함께 변하는 정도 / X와 Y가 각각 변하는 정도
( = 두 변수의 공분산 을 표준 편차 의 곱으로 나눈 값 )

- 결과의 해석:

r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 결정계수 (coefficient of determination) 는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.

일반적으로

r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계

로 해석한다.

여러 데이터셋와 각 셋의 x와 y의 상관 계수. 상관 관계는 선형 관계의 비선형성 및 방향을 반영하지만 그 관계의 기울기 또는 비선형 관계의 여러 측면을 반영하지 않는다. NB : 중앙의 그림은 기울기가 0이지만이 경우 Y 의 분산이 0이므로 상관 계수가 정의되지 않는다.

스피어만 상관계수(Spearman correlation coefficient)는 데이터가 서열척도인 경우 즉 자료의 값 대신 순위를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관계수를 구한다. 두 변수 간의 연관 관계가 있는지 없는지를 밝혀주며 자료에 이상점이 있거나 표본크기가 작을 때 유용하다. 스피어만 상관계수는 -1과 1 사이의 값을 가지는데 두 변수 안의 순위가 완전히 일치하면 +1이고, 두 변수의 순위가 완전히 반대이면 -1이 된다. 예를 들어 수학 잘하는 학생이 영어를 잘하는 것과 상관있는지 없는지를 알아보는데 쓰일 수 있다.

스피어만 상관 계수는 순위가 매겨진 변수 간의 피어슨 상관 계수 로 정의된다

피어슨의 상관 계수가 두 변수 사이의 선형 관계를 평가하는 반면 스피어만의 상관 계수는 단조 적 관계 (선형인지 여부는 아님)를 평가한다. 중복 데이터 값이 없으면 각 변수가 다른 변수의 완벽한 단조 함수 일 때 +1 또는 -1의 완벽한 스피어만 상관 관계가 발생한다.

위 그래프처럼 두 변수 X와 Y가 선형 관계가 아니더라도 스피어만 상관 계수는 1이 될 수 있다. 하지만 +1의 피어슨 상관 계수를 보장하지는 않는다.

위 그래프처럼 데이터가 뚜렷한 경향성을 보이지 않을 경우에 스피어만 상관 계수와 피어슨 상관 계수는 비슷한 값을 가진다.

스피어만 상관 계수는 피어슨 상관 계수에 비해 이상치에 덜 민감하다. 이는 스피어만 상관 계수의 ρ가 이상치를 그 값이 아닌 순위로써만 고려하기 때문이다.

크론바흐 알파 계수(Cronbach's alpha)의 신뢰도 계수 α는 검사의 내적 일관성을 나타내는 값으로서 한 검사 내에서의 변수들 간의 평균상관관계에 근거해 검사문항들이 동질적인 요소로 구성되어 있는지를 분석하는 것이다. 동일한 개념이라면 서로 다른 독립된 측정 방법으로 측정했을 때 결과가 비슷하게 나타날 것이라는 가정을 바탕으로 한다.

예를 들어 설문지 조사의 경우, 같은 내용의 질문을 다른 형태로 반복하여 질문한 다음 같게 대답했는지를 검사하여 신뢰도를 알아 볼 수 있다. 일반적으로는 요인분석을 하여 요인들을 추출하고 이들 요인들이 동질 변수들로 구성되어 있는지를 확인할 때 이용한다. 사전조사나 같은 속성의 질문을 반복하여 신뢰도를 높일 수 있다.

저작자표시 비영리 변경금지

'Machine Learning > Statistics' 카테고리의 다른 글

통계적 추정 - 구간 추정(신뢰구간) (0)	2019.05.28
통계적 추정 - 점 추정(적률법, 최대우도법) (0)	2019.05.28
카이제곱분포, T분포 (0)	2019.05.28
대수의 법칙, 중심극한정리 (0)	2019.05.28
확률 분포, 표본평균의 분포 (2)	2019.05.24

Move Fast

확률과 통계 기초

모집단 (Population)

확률 변수 (Random Variable)

평균 (기대값, Expected Value)

분산 (Variance)

표준편차 (Standard Deviation)

공분산 (Covariance)

상관 분석 (Correlation Analysis)

'Machine Learning > Statistics' 카테고리의 다른 글

+ Recent posts

티스토리툴바