728x90

제가 예전에 SAS 강좌를 많이 하여 왔고, 학위 및 연구논문을 컨설팅할 때에는

SAS를 많이 사용하여 왔습니다. 요즘은 R 강좌를 주로 합니다.

SAS강좌와 R강좌에서 통계학을 강의할 때, 기술통계량을 설명하고 그래픽 설명를 하고

그 다음으로 통계학에서 자주 사용되는 확률 분포를 설명합니다.

 

통계학에는 수많은 분포가 있습니다. 크게 구분하면

연속적인(continuous) 분포이산적인(discrete) 분포가 있습니다.

정규분포, t 분포, 카이제곱분포, F 분포, 이항분포, 포아송분포 이외에도

지수분포, Weibull 분포, 음이항분포, 초기하분포... 

 

그리고 수많은 통계분석기법이 있습니다.

t검정, 분산분석법(ANOVA), 상관분석, 회귀분석, 로지스틱회귀분석, 카이제곱분석

주성분분석, 요인분석, 판별분석, 군집분석, 시계열분석

 

그리고 머신러닝으로 가면 수많은 기법들이 등장합니다. 이런 걸 언제 다해???

 

우선 확률분포에 대해서 설명합니다.(정규분포, t 분포, /  카이제곱분포, F분포)

여러분들은 평균 분산은 알고 계실 것이고, 정규분포는 알고 있을 겁니다.

평균과 관련된 분포 정규분포, t 분포 이고

분산과 관련된 분포 카이제곱분포, F분포 입니다.

 

정규분포는 평균과 분산을 알 때, 종모양으로 좌우대칭인 분포인 모양을 하고 있는 것은

잘 알고 있을 겁니다.

그런데 이 때 만약 분산을 모르면, 분산을 표본에서 계산하여 사용하면 되겠지요.

이렇게 되면 t 분포를 따르게 됩니다. (이 사이에는 논리의 비약이 있지만 일단 그렇게 이해하시고...)

그리하여 표본에서 구한 평균값으로 모평균이 어떻게 될까? 추정도 하고, 검증도 하고 (평균..., 평균..., 평균....)

이럴 때 정규분포랑 비슷한 t 분포를 이용합니다.

(일단 평균과 관련하여서는 여기까지... 단 샘플이 적을 경우이지만 잠시 잊으시고)

 

그러면 분산은 어떻게 될까? 분산 카이제곱분포를 따릅니다.

분산이 2개(두 그룹의 분산)가 있어서 이 분산 2개의 비율 F 분포를 따릅니다.

 분산 1개는 카이제곱분포,  분산 2개는(서로 비율을 구하면) F 분포를 따릅니다.

 

그래서 어쩌라구... 암튼 평균과 분산에 관련된 분포가

평균과 관련된 분포는 정규분포, t 분포

분산과 관련된(제곱합 포함) 분포는 카이제곱분포,F 분포입니다 (여기까지)  

 

더 아시고 싶은 내용이 있으시면 댓글을 부탁드립니다...

+ Recent posts