데이터 핸들링 및 전처리 부분을 강의할 때에는 다음과 같은 내용을 설명합니다...
- apply 계열 적용하기
- 패키지 dply
- 패키지 data.table
- 패키지 reshape2
- 두 데이터 합치기 merge
- 미싱 다루기 - NA와 NULL
여기서 패키지 dplyr의 함수 몇 개만 알면 데이터 핸들링을 쉽게 할 수 있습니다.
install.packages("dplyr")
library(dplyr)
data(package="dplyr") # 패키지 dplyr에 들어있는 샘플데이터를 살펴보니 별로...
dplyr 패키지에 기억할 만한 함수는 대충 6가지입니다.
- select() 함수 - 변수추출하기
- rename() 함수 - 변수 이름 바꾸기
- filter() 함수 - 관측치(행) 추출하기
- mutate() 함수 - 새로운 변수 만들기
- arrange() 함수 - 정렬하기
- summrise() 함수 - 기술 통계량 구하기
샘플데이터:
diamonds 데이터
mtcars 데이터
저는 강의 중에는 mtcars라는 자동차 연비 데이터를 사용합니다. mtcars는 R을 설치할 때 기본적으로 설치되는 datasets 패키지에 이미 들어가 있습니다.
head(mtcars)
mtcars %>% head
mydata <- mtcars
select(mtcars, mpg, cyl, wt)
select(mydata, 3:4)
mydata1 <- select(mydata, carb, cyl)
mydata1
Mydata1 <- mydata(displacement=disp, cylinder=cly)
Mydata1
filfilter(mydata, gear % in% c(4,5) & carb==2)
summarise(mydata, mpg_mean=mean(mpg), mpg_median=median(mpg))
mydata %>% arrange(desc(mpg)) %>% arrange(gear)
mutate(mtcars, hpssurvey, hp1 = hp +cyl) # 새로운 변수 계산
'R연습 200제 > 05_00. (R)전처리와 R 응용' 카테고리의 다른 글
(R)제07강(2.1) 데이터 다루기 - 패키지 dplyr 이용하기 (0) | 2022.01.08 |
---|---|
(R1)제07강(1.1) apply 계열- apply, sapply, lapply (0) | 2021.01.12 |