조인호83 (R1)제14강(1.1) 군집분석 - 데이터 iris, 패키지 stats, 함수 dist, hclust, kmeans 이제 머신러닝 기법 중 하나인 군집분석(Cluster Analysis)에 대한 간단한 실습을 합니다.사용되는 데이터는 유명한 붓꽃데이타 iris 이고, 패키지는 R 설치할 때 기본적으로 설치되는 {stats}입니다. # (2.2) 군집분석 간단한 실습 -iris# 유사성 - Distance 구하기----# 각 row 들의 거리를 구한다...dist(iris[1:7,1:4]) # 7개 관측치 간의 거리를 구한다... dist01 소수7자리... 소수 3 자리dist01# Default method="euclidean"# dist01 # (2.3) 군집분석 - hclust()----hc plot(hc)plot(hc,hang=-1)?hclustdist02 소수7자리... 소수 2 자리hc02 plot(hc0.. 2020. 12. 30. (R1)제14강(5.1)서포트벡터머신(SVM)-데이터 iris, 패키지(e1071) 이제 머신러닝 기법 중 하나인 서포트벡터머신(SVM, Support Vector Machine)에 대한 간단한 실습을 합니다. 사용되는 데이터는 유명한 붓꽃데이타 iris 이고, 패키지는 e1071입니다. install.packages("e1071") library(e1071) svm(Species~., data = iris) model_svm 2020. 12. 30. (R1)제14강(3.1)의사결정나무 - 데이터(iris), 패키지(rpart) 가장 많이 알려져 있는 데이터인 붓꽃 데이터(iris)를 이용하여 의사결정트리를 실행합니다. 사용되는 패키지는 {rpart} 이고, 사용되는 함수도 rpart()입니다. 뒷부분에 모형 평가를 위해 패키지 caret 사용법을 추가했습니다. 1. 의사결정나무 실행 - 패키지 rpart 이용 install.packages("rpart") # 패키지 rpart 설치 library(rpart) # 패키지 rpart 로딩 rpart(Species ~., data=iris) # 종속변수 붓꽃의 종류 Species로 하고, 나머지 변수로 의사결정모형을 실행 plot(model_rpa,compress=T,margin=0.2) # 의사결정모형의 결과를 Plot text(model_rpa, cex=1.5) # [[ 해석 ].. 2020. 12. 29. (R3)제14강(3.1) 텍스트마이닝 - TDM(Term Document Matrix) 텍스트마이닝(Text Mining) 관련 자료를 보다 보면 TDM과 DTM 단어가 나옵니다. 단어 순서만 바뀌어 있어서 헷갈리지만 둘 다 알 필요는 없고 TDM ... T 로 시작하는 것만 우선 이해를 하시면 됩니다. 다음과 같은 자료를 참고로 했습니다. 참고문헌: (1) R을 이용한 빅데이터 분석(임동훈 지음, 자유아카데미) (2) R를 이용한 텍스트마이닝(백영민 지음,한울) 그외 구글링 1. TDM 의 형태 우선 Matrix 이니까 2차원 데이터인 모양이다. Term은 단어이고 세로 방향, 행 Document 문서이니까 가로방향, 열 그리고 각 셀마다 빈도수가 나타나 있습니다. 문서1에는 단어 1이 8개 들어가 있는 것을 볼 수 있습니다. 단어 1은 각 문서(DOC) 마다 많이 들어가 있어 공통으로 .. 2020. 12. 22. (P)제05강_손글씨 파일 읽어오기 - sklearn, MNIST [출처] 오래 되어 기억이 가물가물 합니다. 찾아서 추가하도록 하겠습니다. ^^^ import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import load_digits # c:> pip show scikit-learn # Location d:\Anaconda3\Lib\site-packages # d:\Anaconda3\Lib\site-packages\sklearn\datasets digits = load_digits() from sklearn.preprocessing import scale data = scale(digits.data) def print_digits(images,y,max_n=10): fig = plt.figu.. 2020. 12. 18. (P)제05강_파이썬 iris 데이터 이용하기 파이썬에서 seaborn 라이브러리에 내장된 데이터를 불러오면 됩니다. R패키지는 함수와 샘플데이터, 샘플프로그램들을 포함하고 있습니다. R에서는 library(패키지이름) 명령문으로 샘플데이터를 사용할 수 있습니다. iris 데이터는 R 패키지 datasets에 포함되어 있습니다. 파이썬에서는 seborn 라이브러리에서 load_datset( ) 를 이용하여 데이터를 불러올 수 있습니다. import seaborn as sns iris = sns.load_dataset('iris') iris.head(6) 타이타닉 데이터를 불러오려면 titanic = sns.load_dataset('titanic') titanic.head(6) 그럼 seaborn에서 어떤 데이터가 내장되어 있는가?를 보려면 sns.g.. 2020. 12. 14. 이전 1 ··· 3 4 5 6 7 8 9 ··· 14 다음