728x90

조사자료분석에서 가장 많이 사용되는 기법이 바로 χ2 (카이제곱이라 읽는다)제곱법(chi square test)입니다.

앞서 다룬 t검정, 분산분석법, 회귀분석법 등은 모수적기법이라 그러고

카이제곱법은 평균값등을 구하지 않는 아주 쉬운(?) 아주 이해하기 쉬운(?) 비모수기법입니다.

그냥 빈도수를 구하여 어쩌구... 저쩌구... 하여 결론을 내리는 간단한 기법입니다.

그런데 이 카이제곱법이 엄청 유용하게 사용됩니다.

 

카이제곱검정은 명목변인들간의 상호관련성 여부에 관한 검정을 행하는 통계기법입니다. 

예를 들면 남녀별로 취미생활에 대한 차이가 있는지를 보고자 할 때 사용하는 방법입니다. 

일반 설문조사의 90% 이상이 χ2검정의 적용을 필요로 합니.

 

1. 귀하의 성별은 ? (1) (2) 

2. 귀하가 즐기는 취미생활은 ?

(1) 스포츠 (2) 음악감상 (3) 독서 (4) 여행

 

1)번 문항과 2)번 문항에서 각각의 항목에 해당하는 사람이 몇 명인가를 조사하여

남자인 경우 취미생활의 분포와 여자인 경우 취미생활의 분포를 비교해 보고,

남녀별로 그 분포의 차이가 있는지를 살펴보는 방법입니다.

 

카이제곱법의 결과로 나오는 Contigency Table 을 보면 머신러닝의 모형을 검정하는

Confusion Matrix 를 이해하는 도움이 됩니다.

그리고 CHAID 알고리즘을 이해하는데에도 도움이 되고

생존분석에서 통계량을 검정하는 데에도 사용됩니다.

이렇게 간단하게 보이는 카이제곱법이라도 기초만 튼튼하면, 꽤 많은 분야에 도움이 됩니다. 

 

카이제곱법 예제(R 활용)

 

          스포츠 음악감상 독서 여행

남자(M)     25     40      30    20

여자(F)        5    35      20     25

 

# R 프로그램
# (1) 카이제곱법 예제
#           스포츠  음악감상  독서  여행
# 여자(F)     5       35       20    25
# 남자(M)   25       40       30    20 

 

# (2) 빈도수를 행렬형태로 바꾼다...

count <- c(15,35,20,25,25,40,30,20)
chi1 <- matrix(count,nrow=2,byrow=T); chi1

chisq.test(chi1)

 

귀무가설: 남녀별 취미생활 차이가 없다

자유도 3 : 남녀(2그룹-1) X 취미(4그룹-1) = 1 X 3

p-value = 0.3187   < 유의수준 0.05 보다 크므로

"남녀별 취미생활에 차이가 없다" 라는 가설을 기각하지 못합니다.

 

 

카이제곱법 예제(SAS 활용)

/* χ2-검정의 예  11_chisq_01.sas */

DATA a1;INPUT gender $ hob count ;

CARDS;

F 1 5

F 2 15

F 3 20

F 4 10

M 1 30

M 2 20

M 3 15

M 4 15

;

PROC FREQ;TABLES gender*hob/CHISQ;WEIGHT count;

RUN;

 

+ Recent posts