728x90

데이터 핸들링 및 전처리 부분을 강의할 때에는 다음과 같은 내용을 설명합니다...

 

  1. apply 계열 적용하기
  2. 패키지 dply
  3. 패키지 data.table
  4. 패키지 reshape2
  5. 두 데이터 합치기 merge
  6. 미싱 다루기 - NA와  NULL

여기서 패키지 dplyr의 함수 몇 개만 알면 데이터 핸들링을 쉽게 할 수 있습니다.

 

install.packages("dplyr")

library(dplyr)

data(package="dplyr")   # 패키지 dplyr에 들어있는 샘플데이터를 살펴보니 별로...

dplyr 패키지에 기억할 만한 함수는 대충 6가지입니다.

 

  1. select() 함수 - 변수추출하기
  2. rename() 함수 - 변수 이름 바꾸기
  3. filter() 함수 - 관측치(행) 추출하기
  4. mutate() 함수 - 새로운 변수 만들기
  5. arrange() 함수 - 정렬하기
  6. summrise() 함수 - 기술 통계량 구하기

샘플데이터:

diamonds 데이터

mtcars 데이터

 

저는 강의 중에는 mtcars라는 자동차 연비 데이터를 사용합니다. mtcars는 R을 설치할 때 기본적으로 설치되는 datasets 패키지에 이미 들어가 있습니다.

 

head(mtcars)

mtcars %>% head

mydata <- mtcars

select(mtcars, mpg, cyl, wt)

select(mydata, 3:4)

mydata1 <- select(mydata, carb, cyl)

mydata1

Mydata1 <- mydata(displacement=disp, cylinder=cly)

Mydata1

 

filfilter(mydata, gear % in% c(4,5) & carb==2)

summarise(mydata, mpg_mean=mean(mpg), mpg_median=median(mpg))

mydata %>% arrange(desc(mpg)) %>% arrange(gear)

 

mutate(mtcars, hpssurvey, hp1 = hp +cyl)   # 새로운 변수 계산

 

 

 

 

 

 

 

 

 

+ Recent posts