728x90

이제 통계 편으로 "제1강" 입니다. 여러분들은 "SAS강좌편"(또는 "R강좌"편에서)을 통하여

SAS 사용법이나 R 사용법을 알고 있습니다. (파이썬도 포함해서요)

물론 그외 다양한 방법으로 어느 정도 사용법을 알고 있을 것입니다.

그럼 통계분석할 때 가장 간단한 분석으로는 어떤 것이 있을까요?

 

먼저 평균값이나 표준편차를 구해 보고...
(네, 이를 유식하게 기술통계량이라고 합니다.)

그리고요... 뭐 남녀별로 급여 차이가 있는지, 꼭 남녀가 아니더라도 두 집단의 급여 차이 그런 거!!!

(네, 이 때 사용하는 것이  t 검정이라고 합니다. 또요...)
흠, 그리고 분산분석, 상관분석, 회귀분석, 로지스틱회귀분석 등을 하게 됩니다.

(이러한 것들도 SPSS, SAS를 쓰면 간단하게 됩니다. 특히 SPSS 를 쓰면 엑셀 사용하는 것과 같이
메뉴를 몇 번 두드리면 결과가 나옵니다.)

R은 명령문 몇 줄을 치면 답이 나옵니다.  그것도 멋있게 ...
경우에 따라서는 해석하기는 좀 어렵지만, 암튼 결과는 나옵니다.

이렇게 나온 결과를 가지고 논문을 쓰게 됩니다.

제가 통계컨설팅을 할 때에도 이런 과정을 거칩니다.

 

 

그런데 이때 주의하실 것이 있습니다. 시간이 촉박하여 빨리 결론을 내야 하는 것도 이해가 되지만

중요한 것은 분석하기 전에 (어느 정도(?)) 데이터가 정확해야 합니다.

아무리 그럴 듯 해 보이고 멋있는 결과가 나와도 데이터가 부정확하면 말짱 도루묵(?)입니다.

(도루묵은 표준말이더라고요...)

 

이렇게 본격적으로 분석하기에 앞서 데이터를 미리 처리해야 하는 것이 워낙 중요합니다.

이것이 "데이터 전처리"입니다.

 구글에서 "전처리"라고 찾아보시면 수많은 유용한 자료들을 보실 수 있을 겁니다.

올바르지 않은 통계기법을 적용한 결과도 쓰레기이지만

전처리를 하지 않은 결과도 쓰레기일 가능성이 많습니다.

제가 이렇게 심한 말,  "쓰레기"를 사용한 것에 대해 양해를 부탁드립니다.
처음에 전처리 과정을 겪지 않으면 나중에 (때로는) 거짓 결론을 내리게 되는 경우가 있기 때문입니다. 

 

+ Recent posts