본문 바로가기

R연습 200제33

(R1)제07강(0.0) 파일핸들링 목차 - apply계열, dplyr, merge 등 데이터 핸들링 및 전처리 부분을 강의할 때에는 다음과 같은 내용을 설명합니다... apply 계열 적용하기 패키지 dply 패키지 data.table 패키지 reshape2 두 데이터 합치기 merge 미싱 다루기 - NA와 NULL 여기서 패키지 dplyr의 함수 몇 개만 알면 데이터 핸들링을 쉽게 할 수 있습니다. install.packages("dplyr") library(dplyr) data(package="dplyr") # 패키지 dplyr에 들어있는 샘플데이터를 살펴보니 별로... dplyr 패키지에 기억할 만한 함수는 대충 6가지입니다. select() 함수 - 변수추출하기 rename() 함수 - 변수 이름 바꾸기 filter() 함수 - 관측치(행) 추출하기 mutate() 함수 - 새로.. 2021. 1. 12.
(R1)제07강(1.1) apply 계열- apply, sapply, lapply 이번 시간은 apply 계열을 설명합니다. apply 함수는 "데이터객체"를 설명할 때 "행렬(matrix)" 객체에서 간단하게 설명한 바 있습니다. apply 함수는 사용법이 간단합니다. 이 간단한 apply와 유사한 함수들이 많은데 sapply, lapply, tapply ... 등이 있습니다. 그리고 apply(데이터, 1또는 2, 함수) 형태인데 함수를 사용할 수 있는 것도 유용한 기능입니다. 이 함수에 mean, sum, min,max, prod 간단한 함수를 사용하는 예제를 보이지만 다양한 함수를 적용할 수 있습니다. apply() 함수 m1 2021. 1. 12.
(R1)제14강(1.1) 군집분석 - 데이터 iris, 패키지 stats, 함수 dist, hclust, kmeans 이제 머신러닝 기법 중 하나인 군집분석(Cluster Analysis)에 대한 간단한 실습을 합니다.사용되는 데이터는 유명한 붓꽃데이타 iris 이고, 패키지는 R 설치할 때 기본적으로 설치되는 {stats}입니다. # (2.2) 군집분석 간단한 실습 -iris# 유사성 - Distance 구하기----# 각 row 들의 거리를 구한다...dist(iris[1:7,1:4]) # 7개 관측치 간의 거리를 구한다... dist01 소수7자리... 소수 3 자리dist01# Default method="euclidean"# dist01  # (2.3) 군집분석 - hclust()----hc plot(hc)plot(hc,hang=-1)?hclustdist02 소수7자리... 소수 2 자리hc02 plot(hc0.. 2020. 12. 30.
(R1)제14강(2.1)KNN - K-최근점 이웃( K nearest Neighbor) : 패키지 class KNN 은 군집분석(Cluster Analysis)의 응용되는 개념입니다. 군집분석은 비지도학습이고, KNN 는 지도학습입니다. 군집분석은 집단을 구분하는 분류변수가 없이 그냥 독립변수들만 가지고, 어느 관측치들이 가까운가?를 (군집으로) 분류하는 기법입니다. KNN 은 새로운 관측치가 들어오면, 관측치가 갖고 있는 변수들(독립변수들)을 가지고 기존의 관측치와 얼마나 가까운가를 계산한 다음, 가까운 몇 개의 기존의 관측치를 선택합니다.(k=3 과 같이) 이 때 이들 관측치들이 이미 어떤 그룹에 속하는 것인지를 알고 있으므로, 가장 많이 속한 그룹에 해당되는 것으로 결론을 내리는 기법이 KNN 입니다. install.packages("class") # 패키지 class 설치 library(class) # .. 2020. 12. 30.
(R1)제14강(5.1)서포트벡터머신(SVM)-데이터 iris, 패키지(e1071) 이제 머신러닝 기법 중 하나인 서포트벡터머신(SVM, Support Vector Machine)에 대한 간단한 실습을 합니다. 사용되는 데이터는 유명한 붓꽃데이타 iris 이고, 패키지는 e1071입니다. install.packages("e1071") library(e1071) svm(Species~., data = iris) model_svm 2020. 12. 30.
(R1)제14강(3.1)의사결정나무 - 데이터(iris), 패키지(rpart) 가장 많이 알려져 있는 데이터인 붓꽃 데이터(iris)를 이용하여 의사결정트리를 실행합니다. 사용되는 패키지는 {rpart} 이고, 사용되는 함수도 rpart()입니다. 뒷부분에 모형 평가를 위해 패키지 caret 사용법을 추가했습니다. 1. 의사결정나무 실행 - 패키지 rpart 이용 install.packages("rpart") # 패키지 rpart 설치 library(rpart) # 패키지 rpart 로딩 rpart(Species ~., data=iris) # 종속변수 붓꽃의 종류 Species로 하고, 나머지 변수로 의사결정모형을 실행 plot(model_rpa,compress=T,margin=0.2) # 의사결정모형의 결과를 Plot text(model_rpa, cex=1.5) # [[ 해석 ].. 2020. 12. 29.