본문 바로가기

R & SAS 300제/1. 설문지작성&전처리(S2)5

제1강(R) 1.2 전처리 실습 간단한 20개의 데이터로 전처리 실습을 합니다. 실습데이터 tongcon(ex)_01.csv 는 계속 수정, 보완될 예정입니다. 따라서 아래의 내용도 계속 변경될 것입니다. * 1차 변경 : 변수 wage=999 를 여러 개 만듬(8번째와 16번째) * 2차 추가 : 2차원 그래프를 이용한 전처리 * 2차 추가 : 중간과정을 외부파일로 저장하는 과정 추가 1. 데이터 읽어오기 setwd("d:/r_class") s 2020. 10. 5.
제1강(s) 1.1 왜 전처리가 필요한가. 통계분석 시작...(계속 수정) 이제 통계 편으로 "제1강" 입니다. 여러분들은 "SAS강좌편"(또는 "R강좌"편에서)을 통하여 SAS 사용법이나 R 사용법을 알고 있습니다. (파이썬도 포함해서요) 물론 그외 다양한 방법으로 어느 정도 사용법을 알고 있을 것입니다. 그럼 통계분석할 때 가장 간단한 분석으로는 어떤 것이 있을까요? 먼저 평균값이나 표준편차를 구해 보고... (네, 이를 유식하게 기술통계량이라고 합니다.) 그리고요... 뭐 남녀별로 급여 차이가 있는지, 꼭 남녀가 아니더라도 두 집단의 급여 차이 그런 거!!! (네, 이 때 사용하는 것이 t 검정이라고 합니다. 또요...) 흠, 그리고 분산분석, 상관분석, 회귀분석, 로지스틱회귀분석 등을 하게 됩니다. (이러한 것들도 SPSS, SAS를 쓰면 간단하게 됩니다. 특히 SPSS.. 2020. 10. 5.
1.2 (g) 설문지 작성과 통계적 자료처리 통계적 자료 처리 통계학은 자료를 수집하고, 정리하고, 분석할 뿐만 아니라 그 분석을 토대로 합리적인 의사결정을 할 수 있도록 하는 과학적인 방법입니다. 이를 효과적으로 수행하려면 우선 조사대상이 되는 문제가 무엇인가에 대한 정확한 문제정의와 확인이 필요합니다. 문제정의가 결정되면 문제에 대한 가설을 설정하게 되고 이 가설을 검정할 자료를 수집하게 됩니다. 이렇게 자료가 수집되면 그 자료 분석에 적합한 통계기법을 적용하여 분석하게 됩니다. 이러한 단계 중 가장 중요한 단계는 역시 “문제의 정확한 정의와 확인 단계”입니다. 보통 초보자는 이 부분을 소홀히 하여 대충 건너뛰게 되고 분석기법에만 관심을 가집니다. 이는 통계학 지식, 즉 분석기술을 모르기 때문인데, 첫 단계에서 문제정의를 잘하고 두 번째 단계에.. 2020. 9. 13.
(1.2)미싱 관련(g) - NA, NULL...is.na/sum(is.na( ))... Inf, NaN 1. NA Not Available NA는 그냥 미싱, 결측값으로 생각하면 됩니다. NA와 혼동되는 NULL은 그냥 (아예) "값이 없다"를 의미합니다. 둘 다 헷갈리겠지만 NULL 은 당분간 생각 안 하시는 게 좋습니다. "값이란 게 없는데... 무슨 생각을 해..." 하는 식으로 ^^^ (1) mean(c(1,2,3,4,5)) -> 3 x NA x 5 (3)mean(c(1,2,NA,4,5),na.rm=T) -> 3 x 3 NULL 은 아예 값도 없고, 존재도 없습니다. 그리하여 NULL 을 포함하여 요소가 5개 이지만, 실제로는 요소가 4개인 것입니다. length(c(1,2,NULL,4,5)) --> 4 4개의 요소로 구성되어 있습니다. 5개의 요소 중 3번째 요소(NULL)는 "아예 값이 없다" .. 2020. 9. 12.
1.3(g) 설문지 분석 결과 해석할 때 주의할 점 그동안 통계분석 자문을 하다 보면 분석 의뢰자들이 가져온 참고문헌을 읽게 됩니다. 간혹 이들 논문들에서 개선되었으면 하는 부분을 발견하게 됩니다. 카이제곱 검정이나 t 검정을 하고 난 후, 결과만을 해석하는 경우를 보았습니다. 예를 들어 "남녀별로 (유의수준 0.05에서) 급여 만족도에 차이가 있는 것으로 나타났다...." t값이 얼마? 또는 p-value가 얼마... 그리하여 유의수준 0.05 작으므로 분석 결과가 유의미한 것으로 나타났다. 이렇게 결론짓고 마무리하는 경우를 보았습니다. 또는 "남녀별로 (유의수준 0.05에서) 급여 만족도에 차이가 없는 것으로 나타났다...." 이렇게 마무리를 짓는 경우를 보았습니다. 이렇게 통계분석 결과만 해석하지 마시고, 그 의미를 설명하는 것을 권합니다. "남녀별.. 2020. 7. 20.