확률분포함수 (위: 이산확률분포, 아래: 연속확률분포)

 

유명확률분포함수.pdf
1.32MB

함수공식은 위 pdf 참고

 

[+] 정규분포의 확률밀도함수 이해하기

기초통계학의숨은원리이해하기_정규분포이해하기.pdf
0.59MB

 

원래 정규분포를 그리는 종모양 함수는 위와 같은데 확률밀도함수의 조건

(면적의 합=1, 주어진 확률밀도함수를 따르는 확률변수의 분산=1)

을 만족시키기 위해 다음과 같이 변경됨.

 

 

확률분포

- 확률변수: 시행으로부터 형성된 표본공간을 정의역으로 하는 함수의 치역
- 도수분포표: 확률변수를 계급값으로 그 확률변수에 대응되는 표본공간의 원소의 개수를 도수를 조사하여 만든 표

표본공간은 미래의 사건에 대한 모든 경우를 담고 있어서 도수분포표를 만들게 되면 미래의 사건에 대한 통계적 의미를 얻을 수 있다. 그리고 도수분포표를 통해 상대도수를 표시하게 되면 이는 그 확률변수의 확률이 된다. 이러한 상대도수들을 통해 상대도수분포표를 만들 수 있는데 이것이 확률분포이다. 이처럼 확률변수의 함수적인 구조를 통해서 얻은 자료들을 미래의 사건에 대한 통계적 자료로 보고, 확률분포의 대표값과 산포도를 구했을 시 미래의 사건에 대한 정보로 쓸 수 있다. 이런 정보를 바탕으로 미래의 사건에 대해 예측할 수 있다.

또한 확률변수는 표본공간을 이용하여 임의로 설정할 수 있다. 이 때 확률변수의 상태는 이산형이거나 연속형일 수 있는데, 각각 이산확률분포와 연속확률분포의 확률변수가 된다. 확률변수의 상태와는 무관하게 위의 두 확률분포는 모두 각 확률변수가 표본공간에 어느 정도의 비율로 존재하는지 시각적으로 표현한 것이다.

이산확률분포 중에는 표본공간을 형성하는 시행이 독립시행인 경우에 생성되는 확률분포인 이항분포가 있다. 이항분포는 시행의 횟수가 충분히 커지면 정규분포의 형태로 근사하게 된다. 또한 자연현상이나 사회현상의 통계자료를 정리하여 도표를 통해 그래프로 나타냈을 때 그 그래프 또한 대부분 정규분포에 가깝다. 그리고 정규분포의 확률밀도함수도 알려져 있다.

연속확률분포는 확률변수가 연속적으로 존재하는데 이는 곧 확률변수를 만들어내는 표본공간이 무한집합임을 의미하며 기하학적 확률을 통해 확률분포를 완성하게 된다.

정규분포를 표준정규분포로 변형시킨 뒤 확률을 구할 때, 정규분포에서의 비율과 표준정규분포에서의 비율이 동일하다. 정규분포를 선형변환 해주어서 만든 것이 표준정규분포이기 때문이다. 왜 선형변환을 하냐면, 종모양의 분포가 모두 같지 않기 때문이다. 즉, 정규분포도 형태가 다양하기 때문에 그래프를 놓고 비교하는데 어려움이 있어 평균=0, 분산=1 인 N(0, 1) --> 표준 정규분포를 만드는 것이다.

* 선형변환: 원래의 값에 더하거나 빼거나 곱하거나 나눗셈을 한 변환 (사칙연산을 수행한 결과)으로, 이런 경우 데이터 그래프의 분포가 변하지 않는다는 장점이 있다.

무튼 표준정규분포를 이용하면 표준편차 사이 영역의 확률을 알 수 있다.

출처: https://oooasd73.blog.me/221465832498

 

#4. 정규분포와 표준정규분포

안녕하세요 두두의 심리블로그, '두두'입니다. 정리를 하면 할수록 어려운 통계인데요, 오늘은 ...

blog.naver.com

 

 

표본평균

표본 평균(sample mean)이란 모집단(population)의 모 평균(population mean)에 대비되는 개념으로서 이산 확률 분포와 연속 확률 분포에서 다루었던 확률 변수에 대해서 반(反)하여 표본들을 추출하여 그 표본들의 평균을 구하고 그 평균의 집단을 대표하는 값을 일컫는다.

모집단에서 확률변수 의 평균, 분산, 표준편차를 각각 mσ2, σ 라 하고 어떤 모집단에서 크기 인 표본을 추출하는 경우, 추출된 n개의 변량을 각각 X1, X2, X3, ··· , Xn 이라 할 때, 다음을 표본평균이라 한다.

 

[ 표본평균 ]
[ 기호 ]
[ 표본평균의 평균, 분산, 표준편차 ]

왜 표본평균을 사용할까 ?

통계학에서는 모집단(=전체집합, population)의 평균과 분산을 가리켜 모집단의 정보를 담고 있는 수(=모수, parameter) 라 한다. 그런데 대통령선거와 여론조사를 연관지어 생각해보면, 현실의 많은 상황에서 모집단을 전수조사하기 위해선 많은 시간과 노력이 필요하다. 전수조사 하는 것이 불가능한 경우도 빈번하다. 이 때문에 통계학에서는 전체집합 중 일부만을 추출(sampling)하여 표본(=부분집합, sample)의 평균(=표본평균)이나 분산(=표본평균의 분산)을 구하고 이를 바탕으로 모집단의 평균이나 분산을 추정(infer)하는 기법이 많이 발달하게 되었다. 표본평균이나 표본분산처럼 표본의 정보를 담고 있고 모수를 추정하기 위해 사용하는 개념을 추정량(estimator)라고 한다. 즉, 추정량을 사용하여 모수를 추정하는 것이다.

 

표본 분산(sample covarance)은 표본의 분산이다. 모집단(population)의 분산인 모 분산(population covariance)과는 다르다. 또한, 표본평균의 분산과도 다르다.

[ 표본 분산, N은 표본의 크기 ]

표본 분산에서 표본 크기가 N인데도 N-1 로 나누는 이유 ?

표본평균과 표본분산을 구하는 목적은 모평균과 모분산을 추정하기 위해서이다. 즉, 우리가 구한 표본분산은 모분산에 가까운 값을 가질수록 좋은 것이다. 예를 들어 표본이 { x1, x2, x3 } 로 주어졌을 때, 모평균의 정확한 값을 안다면 표본분산은 다음과 같이 정의하는 것이 자연스럽다.

그러나, 현실에서는 모평균을 알지 못하고 표본평균만 사용할 수 있는 상황이 많다. (거의 대부분이 그러하다.) 단 위 식에서 모평균 대신 표본평균을 사용하는 것은 자칫 심각한 오류를 초래할 수 있다. 왜냐하면, 표본평균은 주어진 표본의 분산이 가장 작게 나오도록 설정된 값이기 때문이다. 다시 말해 모평균 u 와 표본 { x1, x2, x3 }와 표본평균에 대해 다음과 같은 부등식이 성립하기 때문에

표본분산을 아래와 같이 정의할 경우 모분산보다 작은 값을 갖게 된다.

[ 잘못된 수식 ]

그래서 처음 생각했던 위와 같은 수식에다가 n / (n-1) 을 곱하여 값을 크게하는 것이다.

[ 표본 분산 ]

출처: https://sodong212.blog.me/130152525536

 

표본분산 s² 을 구할 때 n이 아니라 n-1로 나누는 이유

* 이번 포스팅에서 다루는 내용을 이해하기 위해서는, 고등학교 수학의 평균과 분산의 정의, ∑(수열의 합)...

blog.naver.com

 

 

표본평균의 분포

정리하자면, 표본집단들로부터 모집단의 특성을 알기 위해 표본평균의 분포를 구한다. 즉, 표본평균의 평균을 통해서 모집단의 평균을 구하고 표본평균의 분산을 통해서 모집단의 분산을 구하는 것이다. 왜냐하면, 전수조사를 할 수 없기에 표본조사를 하는 것인데, 이를 통해 알지 못하는 모집단의 통계적 특성을 추론할 수 있기 때문이다.

우선 표본평균은 확률변수이다. 이 점은 헷갈리기 쉬우니 숙지해야 한다. N 개의 표본을 뽑을 때마다 이들의 평균은 같을 수도, 다를 수도 있기 때문에 확률변수(=함수)로 본다.

확률변수는 확률분포가 정규분포이다. 이에 대한 증명은 아래 링크를 참고하면 된다. 아니면 직접 X=1, ..., 4 로 두고 표를 그려보면 값이 대칭적인 걸 알 수 있다. 아무튼 표본평균은 확률변수이고, 확률변수는 정규분포이다. 따라서 표본평균의 정규분포의 성질을 이용해서 모평균을 추정할 수 있다. 사실 표본평균의 평균과 분산은 모평균, 모분산과 동일하다. 이에 대한 증명도 아래 링크를 참고하거나 직접 작은 표본 크기를 토대로 값을 계산해보면 같다는 걸 알 수 있다.

핵심은 모든 정규분포는 표준화를 거쳐 표준정규분포로 변환할 수 있다는 점이다. 표준화란 "(확률변수 - 평균) / 표준편차" 를 계산하여 얻는 값들의 집합인 새로운 확률변수를 두는 것인데, 새 확률변수(이하 Z)는 표준정규분포 N(0, 1) 를 따른다.

표준화에 필요한 평균과 표준편차는 정규분포 N(m, sigma^2) 를 따르기 때문에 구할 수 있다. 참고로 평균은 표준평균의 평균을 쓰면 되고, 표준편차는 확률변수의 표준편차이다. 즉, 특정 확률변수 (Xi) 에 대해 표준화를 수행한다면 해당 변수의 표준편차를 쓰면 되고, 표본평균 (X_bar)을 표준화할 때는 표본평균의 표준편차를 쓰면 된다. 표본평균의 표준편차는 위에 있다시피 sigma / sqrt(N) 이다.


그리고 표준정규분포의 범위 (예를 들어 -1.96 ~ 1.96) 에 표준화된 변수(=Z)가 놓일 확률이 0.95 라 할 때, P(-1.96 <= Z <= 1.96) 식을 평균(m)을 기준으로 고치면 "모평균이 특정 범위에 속할 확률"을 구할 수 있는 것이다. 아까 언급했다시피 표본평균의 평균(=m)은 곧 모평균이기 때문이다.

확률이 0.95라고 했으니, 모평균 m이 취할 수 있는 값이 식의 부등식 범위 안에 놓일 것으로 추정이 되는데 이는 신뢰도 95%로 믿을만 하다고 본다. (확률의 의미)

다시 말해서, 모집단으로부터 N 개의 표본을 '한 번만' 임의/복원 추출하여 계산된 표본평균 값과 표본의 크기 N, 그리고 표준편차를 토대로 모평균을 추정한다. 모평균(m)은 표본평균과 비슷한 값을 가질 것으로 예상되는데, 얻어진 표본평균의 값으로부터 표준화 이후 m을 기준으로 수정한 식으로부터 m 의 범위에 해당되는 구간 내에 존재할 확률이 (위의 경우) 95%라는 것이다.

아래는 수정한 식을 어떻게 변형하는지에 대한 것이다. 모평균을 m 대신 u 라고 표현했다. Z는 범위라고 보면 된다.

[ 수정한 식 ㅎㅎ ]

이미지 출처

근데 95%라는건 생각보다 커서, 표본평균의 확률밀도함수를 그래프 상에 정규분포와 함께 둬보면 그 범위가 넓어 모평균이 포함되어 있다. 물론 우연히 n개의 표본의 값들이 모두 비정상적으로 작다거나 큰 경우가 발생할 수 있는데, 이는 모평균이 있을거라고 추정한 구간 내에 x=m이라는 직선이 존재하지 않게 된다. (x=m 은 정규분포의 x축 중간값이다.)

이렇게 모평균이 있을거라고 추정한 구간을 신뢰구간이라 하며, 언급한 95%는 "신뢰도"라 한다. 그리고 범위는 "신뢰구간의 길이"이다. 신뢰도를 정하면 신뢰구간의 길이는 바뀌지 않는다. 그리고 표본분산을 통계적 추정의 모분산 대신 사용할 수 있다. 오차가 미미해서 사용해도 무방하다고 한다.

따라서 실제 표본조사를 통해 모평균을 추정할 때에는, 표본평균과 표본분산, 그리고 표본 크기에 관한 정보를 토대로 신뢰구간을 잡아서 추정하면 된다.

실제로 n 개 표본 추출 시 나오는 변량들은 X1, X2, ..., Xn 이다. 실제로 구할 수 있는 것은 표본들의 평균인 표본평균과 표본분산 (!=표본평균의 분산)이다. 표본분산은 한 번 뽑은 n 개의 표본들의 자체적인 분산이다.

 

 

참고:

http://blog.naver.com/PostView.nhn?blogId=dalsapcho&logNo=20147545698&parentCategoryNo=&categoryNo=11&viewDate=&isShowPopularPosts=false&from=postView

 

표본평균의 평균과 분산, 통계적 추정 - 개념, 성질, 적용

::표본평균의 평균과 분산, 통계적 추정::- 개념, 성질, 적용 1. 들어가며 저는 대학을 졸업한 사람으로 수...

blog.naver.com

http://blog.naver.com/PostView.nhn?blogId=dalsapcho&logNo=20158545056&categoryNo=11&parentCategoryNo=0&viewDate=¤tPage=1&postListTopCurrentPage=1&from=postView&userTopListOpen=true&userTopListCount=5&userTopListManageOpen=false&userTopListCurrentPage=1

 

[총정리] 기하학적 의미를 갖는 함수 관련 수식들

::[총정리] 기하학적 의미를 갖는 함수 관련 수식들:: 1. 개념 소개 교과과정에는 소개되지 않지만 수능이...

blog.naver.com

 

 

+ Recent posts