본문 바로가기

통계컨설팅40

제1강(R) 1.2 전처리 실습 간단한 20개의 데이터로 전처리 실습을 합니다. 실습데이터 tongcon(ex)_01.csv 는 계속 수정, 보완될 예정입니다. 따라서 아래의 내용도 계속 변경될 것입니다. * 1차 변경 : 변수 wage=999 를 여러 개 만듬(8번째와 16번째) * 2차 추가 : 2차원 그래프를 이용한 전처리 * 2차 추가 : 중간과정을 외부파일로 저장하는 과정 추가 1. 데이터 읽어오기 setwd("d:/r_class") s 2020. 10. 5.
제1강(s) 1.1 왜 전처리가 필요한가. 통계분석 시작...(계속 수정) 이제 통계 편으로 "제1강" 입니다. 여러분들은 "SAS강좌편"(또는 "R강좌"편에서)을 통하여 SAS 사용법이나 R 사용법을 알고 있습니다. (파이썬도 포함해서요) 물론 그외 다양한 방법으로 어느 정도 사용법을 알고 있을 것입니다. 그럼 통계분석할 때 가장 간단한 분석으로는 어떤 것이 있을까요? 먼저 평균값이나 표준편차를 구해 보고... (네, 이를 유식하게 기술통계량이라고 합니다.) 그리고요... 뭐 남녀별로 급여 차이가 있는지, 꼭 남녀가 아니더라도 두 집단의 급여 차이 그런 거!!! (네, 이 때 사용하는 것이 t 검정이라고 합니다. 또요...) 흠, 그리고 분산분석, 상관분석, 회귀분석, 로지스틱회귀분석 등을 하게 됩니다. (이러한 것들도 SPSS, SAS를 쓰면 간단하게 됩니다. 특히 SPSS.. 2020. 10. 5.
아직도 SAS를 사용하고 있는지 궁금? SAS를 정리하면서 "내가 왜 SAS를 보고 있지?" "아직도 SAS 를 사용하는 사람들이 많이 있을까?" 하는 생각을 해 봅니다. R 이라는 강력한 오픈소스가 있고, 모두들 R... R... R... 하는데.... 학창시절 배운 프로그래밍언어로 "FORTRAN"과 "COBOL" 이 있습니다. 이제 COBOL 을 거의 사용되지 않겠지만 아직까지도 COBOL 을 사용하는 사람들이 있듯이 그런 기분으로(?) SAS 을 보고 있습니다. 너무 심한 말인가? SAS는 DATA문과 PROC 문으로 구성되어 있습니다. 거의 모든(?) 업무가 이 두 스텝(Step) 으로 가능할까? 하는 의문은 SAS를 처음 사용했을 때 가졌던 의문입니다. 하긴 COBOL 에서 DATA DIVISION, PROCEDURE DIVISIO.. 2020. 9. 19.
8.2 날짜형 관련 FORMAT 문의 여러가지 형태(SAS 경우) 날짜형을 다루는 명령어로 FORMAT 문이 있는데 이와 관련하여 date문, yymmdd 문이 있습니다. R에서도 이와 유사하게 지원하고 있습니다. 매번 헷갈려서 제가 쓴 "SAS강좌와 통계컨설팅"을 수시로 참조합니다.R 부분은 추후에 올리도록 하겠습니다. 1960년 1월 2일을 다양한 형태로 PRINT하기 - FORMAT 문 형태 프린트 결과 ------------------ --------------- format x1 date5. 02JAN x1 date6. 02JAN x1 date7. 02JAN60 (default) x1 date. 02JAN60 x1 date8. 02JAN60 x1 date9. 02JAN1960 --------------------------------------------- x.. 2020. 8. 12.
4-2(g) 샘플데이터(잠정)과 적용통계기법 샘플데이터는 계속 수정중에 있습니다... I. 다음은 귀하께서 직장생활을 하면서 평소 느끼고 계시는 사항에 관한 것입니다. 귀하의 생각과 일치하는 번호에 00 표하여 주십시오. 1. 귀하는 지금의 회사에서 근무하는 데 보람과 긍지를 느끼고 있습니까? ①매우 그렇지 않다 ②그렇지 않다 ③그저 그렇다 ④그렇다 ⑤매우 그렇다 2. 귀하의 임금 보수체계에 만족하십니까? ①매우 그렇지 않다 ②그렇지 않다 ③그저 그렇다 ④그렇다 ⑤매우 그렇다 3. 귀하의 월평균 급여액은 얼마나 됩니까? 만원 II. 다음은 여가활동에 관한 사항입니다. 1. 귀하는 여가를 어떻게 보내고 있습니까?(2가지를 선택하세요) ① 독서 ② 스포츠 ③ 영화감상 ④ 낚시 ⑤ 등산 ⑥ 음악 감상 ⑦ 여행 ⑧ 기타 (_____) I. 다음은 응답자 .. 2020. 7. 21.
1.3(g) 설문지 분석 결과 해석할 때 주의할 점 그동안 통계분석 자문을 하다 보면 분석 의뢰자들이 가져온 참고문헌을 읽게 됩니다. 간혹 이들 논문들에서 개선되었으면 하는 부분을 발견하게 됩니다. 카이제곱 검정이나 t 검정을 하고 난 후, 결과만을 해석하는 경우를 보았습니다. 예를 들어 "남녀별로 (유의수준 0.05에서) 급여 만족도에 차이가 있는 것으로 나타났다...." t값이 얼마? 또는 p-value가 얼마... 그리하여 유의수준 0.05 작으므로 분석 결과가 유의미한 것으로 나타났다. 이렇게 결론짓고 마무리하는 경우를 보았습니다. 또는 "남녀별로 (유의수준 0.05에서) 급여 만족도에 차이가 없는 것으로 나타났다...." 이렇게 마무리를 짓는 경우를 보았습니다. 이렇게 통계분석 결과만 해석하지 마시고, 그 의미를 설명하는 것을 권합니다. "남녀별.. 2020. 7. 20.