본문 바로가기

전처리3

(R1)제07강(0.0) 파일핸들링 목차 - apply계열, dplyr, merge 등 데이터 핸들링 및 전처리 부분을 강의할 때에는 다음과 같은 내용을 설명합니다... apply 계열 적용하기 패키지 dply 패키지 data.table 패키지 reshape2 두 데이터 합치기 merge 미싱 다루기 - NA와 NULL 여기서 패키지 dplyr의 함수 몇 개만 알면 데이터 핸들링을 쉽게 할 수 있습니다. install.packages("dplyr") library(dplyr) data(package="dplyr") # 패키지 dplyr에 들어있는 샘플데이터를 살펴보니 별로... dplyr 패키지에 기억할 만한 함수는 대충 6가지입니다. select() 함수 - 변수추출하기 rename() 함수 - 변수 이름 바꾸기 filter() 함수 - 관측치(행) 추출하기 mutate() 함수 - 새로.. 2021. 1. 12.
제1강(R) 1.2 전처리 실습 간단한 20개의 데이터로 전처리 실습을 합니다. 실습데이터 tongcon(ex)_01.csv 는 계속 수정, 보완될 예정입니다. 따라서 아래의 내용도 계속 변경될 것입니다. * 1차 변경 : 변수 wage=999 를 여러 개 만듬(8번째와 16번째) * 2차 추가 : 2차원 그래프를 이용한 전처리 * 2차 추가 : 중간과정을 외부파일로 저장하는 과정 추가 1. 데이터 읽어오기 setwd("d:/r_class") s 2020. 10. 5.
제1강(s) 1.1 왜 전처리가 필요한가. 통계분석 시작...(계속 수정) 이제 통계 편으로 "제1강" 입니다. 여러분들은 "SAS강좌편"(또는 "R강좌"편에서)을 통하여 SAS 사용법이나 R 사용법을 알고 있습니다. (파이썬도 포함해서요) 물론 그외 다양한 방법으로 어느 정도 사용법을 알고 있을 것입니다. 그럼 통계분석할 때 가장 간단한 분석으로는 어떤 것이 있을까요? 먼저 평균값이나 표준편차를 구해 보고... (네, 이를 유식하게 기술통계량이라고 합니다.) 그리고요... 뭐 남녀별로 급여 차이가 있는지, 꼭 남녀가 아니더라도 두 집단의 급여 차이 그런 거!!! (네, 이 때 사용하는 것이 t 검정이라고 합니다. 또요...) 흠, 그리고 분산분석, 상관분석, 회귀분석, 로지스틱회귀분석 등을 하게 됩니다. (이러한 것들도 SPSS, SAS를 쓰면 간단하게 됩니다. 특히 SPSS.. 2020. 10. 5.