728x90

SAS에서 통계분석을 지원하는 SAS/STAT에서 다룰 수 있는 통계적 기법에 대하여 개괄적으로 설명하면 다음과 같습니다.

 

https://youtu.be/S5gP1LI-YSU

 

① 카이제곱검정(χ2 검정)

χ2(카이제곱이라 읽습니다) 검정은) 명목 변인들 간의 상호 관련성 여부에 관해 검정을 행하는 통계기법입니다. 일반 설문조사의 90 % 이상이 χ2-검정 적용을 필요로 합니다.

예를 들면 남녀별 취미생활에 대한 차이가 있는가?”를 분석할 때 사용되는 기법이 카이제곱검정입니다. 성별과 취미생활은 평균값을 구할 수 없는 명목 척도입니다.. 성, 취미생활이 둘 다 명목 변인이므로 카이제곱검정을 적용합니다. SAS 프로시져로 PROC FREQ/CHISQ를 사용합니다.

R에서는 chisq.test( ) 함수를 사용합니다.

 

② t-검정

두 그룹간 평균치 차이가 있는지를 검정하는 기법입니다. 예를 들면 남녀별 급여수준 차이가 있는가, 두 학급간 성적 차이가 있는가를 분석하는 기법입니다. 남녀가 두 그룹, 학급도 두 그룹이고, 분석하고자 하는 변수인 급여와 성적은 연속 변수입니다. 또한 실험 전후 식물의 성장 효과에 대한 차이가 있는가를 분석하는 쌍체 비교의 경우에도 t-검정을 사용합니다.

SAS 프로시져로 PROC TTEST를 사용합니다.

R에서는 t.test( ) 함수를 사용합니다.

 

 

③ 분산분석법 (ANOVA, Analysis of Variance)

분산분석법은 세 그룹 이상의 평균치 차이를 검정하고자 하는 경우에 사용합니. 여기서 세 집단 이상이라 함은 1의 독립변수가 3이상의 집단을 가지는 경우와 2개 이상의 독립변수를 결합하였을 때 3개 이상의 집단을 가지는 경우에 해당합니다.

예를 들면 학력별로 급여차이가 있는가?”를 분석할 때, 학력이 두 그룹이면 t검정을 하고, 학력이 세 그룹이상이면 분산분석법을 사용합니다. 또한 남녀별, 결혼유무별 TV 시청시간에 차이가 있는가를 분석하는 경우, 남녀 2그룹, 결혼유무 2그룹 그리하여 4그룹이 되는 셈이므로 이때에도 분산분석법을 사용합니다.

독립변수의 갯수에 따라 적용되는 분산분석법을 다르게 부르는데, 학력별 급여 차이를 분석하는 것과 같이 독립변수가 1개인 경우 일원분산분석법(Oneway ANOVA), 남녀별, 결혼유무별 TV 시청시간 분석과 같이 독립변수가 2개인 경우 이원분산분석법(Twoway ANOVA), 3개 이상인 경우 다원분산분석법(Multiway ANOVA)라고 부릅니다.

SAS 프로시져로 PROC ANOVA 또는 GLM을 사용합니다.

R에서는 anova( ) 함수를 사용합니다.

 

④ 상관분석(Correlation Analysis)

키와 몸무게의 상관계수는 0.783입니다.” 와 같이 두 ‘연속변수’의 ‘선형관계의 정도를 상관계수를 이용하여 설명하는 기법입니다. 연속 변수인 경우에만 상관계수가 의미가 있으며, 상관계수는 단지 두 변수의 선형(linear) 관계의 정도를 나타낼 뿐입니다. 2, 3차 관계가 있는데도 불구하고 상관계수는 상관이 없는 것으로 나타나는 경우가 많습니다. 상관계수는 1에서 1까지의 값을 가집니다. 만약 한 변수(X)가 다른 변수(Y)와 정확하게 선형 관계가 있으면 상관계수는 1 또는 -1 입니다. 상관계수 0 인 경우는 한 변수로 다른 한 변수를 전혀 예측할 수 없다는 것을 의미합니.

SAS 프로시져로 PROC CORR를 사용합니다.

R에서는 cor.test( ) 함수를 사용합니다.

 

⑤ 회귀분석(Regression Analysis)

독립변수와 종속변수 사이에 어떤 관계식이 성립하는지를 찾아내는 기법입니다.

- 키와 몸무게 사이의 관계식(몸무게 = 0.389 x  + 12.376 )

- 월평균 급여와 학력, 연령 등과의 관계

SAS 프로시져로 PROC REG를 사용합니다.

R에서는 lm( ) 함수를 사용합니다.

 

 

⑥ 로지스틱 회귀분석(Logistic Regression)

종속변수가 0, 1 등 명목 척도를 지닐 때 적용하는 기법으로 일종의 응용된 회귀분석입니다. 회귀분석은 종속변수와 독립변수 사이의 관계식을 구한다고 했는데 회귀분석인 경우에는 종속변수는 연속적인 변수입니다. 종속변수가 연속적이 아니고 이산적인 경우, 회귀분석을 적용할 수 없으며 로지스틱 회귀분석을 사용합니다.

SAS 프로시져로 PROC CATMOD, LOGISTIC을 사용합니다.

R에서는 glm( ) 함수를 사용합니다.

 

⑦ 주성분분석(Principal Component Analysis)

여러 변수들을 주성분이라 불리는 보다 적은 수의 변수로 요약하고자 할 때 사용하는 기법입니다. 쉽게 얘기하면 여러 변수들이 있는 경우 이 변수들마다 분산이 있는데(당연히 각 변수마다 평균과 분산이 있습니다) 이 여러 변수들의 분산들을 잘 설명하는 새로운 변수를 찾아내는 분석기법이 주성분분석입니다. 이 새로운 변수란 것이 특별히 새로운 것이 아니고 원래 있던 변수들의 선형 결합으로 구합니다. 이렇게 구한 새로운 변수를 주성분이라고 부릅니다.

SAS 프로시져로 PROC PRINCOMP를 사용합니다.

R에서는 princomp( ) 함수를 사용합니다.

 

⑧ 판별분석(Discriminant Analysis)

미리 정의되어 있는 그룹 정보(또는( 분류변수)분류 변수)를 바탕으로, 그 그룹을 잘 분류할 수 있는 적정기준(판별 함수)들을(판별함수) 설정하여 어떤 표본이 어떤 그룹에 속할 것인가를 예측하는 기법이 판별분석(Discriminant Analysis)입니다.

SAS 프로시져로 PROC DISCRIM를 사용합니다.

R에서는 discrim( ) 함수를 사용합니다.

 

⑨ 군집분석(Cluster Analysis)

관측대상들 간에 어떤 공통 특징을 찾아 비슷한 특징을 갖는 대상들끼리 군집(Cluster)을 형성하는 방법입니다. 주어진 변수들을 근거로 서로 유사한 관측치들을 하나의 그룹으로 묶는 것이 바로 군집분석입니다. 서로 상사성(Similarity)이 높은 관측치(객체)들은 같은 군집으로 묶고 상대적 비상사성이 높은 객체들은 서로 다른 군집으로 묶습니다.

SAS 프로시져로 PROC CLUSTER를 사용합니다.

R에서는 clust( ) 함수를 사용합니다.

 

⑩ 시계열분석(Time Series Analysis)

시계열(time series)이란 일정 시간 간격으로 배치된 데이터들의 수열을 말합니다. 시계열 분석(time series analysis)은 이런 시계열을 해석하고 이해하는 데 쓰이는 여러 가지 방법을 연구하는 분야입니다. 시계열이 어떤 법칙 또는 패튼에서 생성되어서 나오는가를 이해하는 것이 궁극적인 목표라고 할 수 있습니다. 시계열 예측(prediction)은 주어진 시계열에서 수학적인 모델을 만들고, 이를 이용하여 미래에 일어날 것들을 예측하는 작업니다.. 시계열분석의 핵심으로 ARIMA 모형이 있습니다.

시계열분석을 하려면 “SAS/ETS” 란 제품을 이용합니다.

R에서는 ts( ) 패키지를 사용합니다.

 

제가 강의를 할 때에는 10가지 기법들을 중심으로 강의를 진행합니다.

주어진 강의 스케줄에 따라 기법의 수를 줄이기도 합니다.

이외에도 요인분석, 경로분석, 생존분석 등 다양한 기법들이 있습니다.

 

요인분석

요인분석은 주성분분석과 거의 비슷하며 사회과학에서 많이 사용됩니다. 빅데이터에서는 별로 사용하지 않습니다.

수많은 피처(features, 변수)들의 관계를 요인으로 설명하는 기법인데, 빅데이터에서는 요인과 피처들의 인과관계를

설명하기가 복잡하여 많이 사용되지 않습니다. 빅데이터 분석에서는 주성분분석이 많이 사용됩니다.

경로분석

경로분석은 회귀분석에서 독립변수들끼리 서로 연관이 있을 때 적용되는 기법으로 회귀분석의 확장된 모형이라고 생각하면 됩니다.

 

생존분석

생존분석은 주로 의료분야에 많이 사용되는 기법으로 10가지에서는 빠졌습니다... ^^^

 

⑭ 정준상관분석

정준상관분석은 종속변수가 1개가 아니라 여러 개가 있는 경우,

종속변수의 집합과 독립변수의 집합을 분석하는 기법입니다.

정준상관분석은 회귀분석의 확장된 개념이지만 이름에서 알 수 있듯이 상관분석과도 연관이 있는 분석방법입니다.

정준상관계수는 종속변수의 집합과 독립변수의 집합간의 관계를 나타내는 상관계수입니다.

+ Recent posts