머신러닝/6. 의사결정나무4 (R3)제04강(1.1) 의사결정나무 - iris, rpart, caret 가장 많이 알려져 있는 데이터인 붓꽃 데이터(iris)를 이용하여 의사결정트리를 실행합니다. 사용되는 패키지는 {rpart} 이고, 사용되는 함수도 rpart()입니다. 뒷부분에 모형 평가를 위해 패키지 caret 사용법을 추가했습니다. 1. 의사결정나무 실행 - 패키지 rpart 이용 install.packages("rpart") # 패키지 rpart 설치 library(rpart) # 패키지 rpart 로딩 rpart(Species ~., data=iris) # 종속변수 붓꽃의 종류 Species로 하고, 나머지 변수로 의사결정모형을 실행 plot(model_rpa,compress=T,margin=0.2) # 의사결정모형의 결과를 Plot text(model_rpa, cex=1.5) # [[ 해석 ].. 2020. 12. 29. (p3)제04강_01 파이썬으로 해 보는 의사결정나무 import numpy as np from sklearn import datasets # iris 데이터를 불러오기 from sklearn import tree # 의사결정나무 모듈 from sklearn.model_selection import train_test_split # 훈련데이터와 테스트 데이터 분류할 때 필요 from sklearn.preprocessing import StandardScaler # 표준화할 때 필요 iris = datasets.load_iris() # iris 데이터 로딩 X = iris.data y = iris.target model_tree = tree.DecisionTreeClassifier(criterion='entropy', max_depth=3, random_st.. 2020. 11. 10. 4.1 의사결정나무 - 회귀(regression) 나무, 분류(classification)나무 의사결정나무는 회귀문제와 분류문제에 적용할 수 있습니다. 회귀문제는 회귀분석 같이 연속적인 변수에 대한 예측을 하는 것이고 분류문제는 판별분석 같이 어느 부류에 속하는 것인가를 예측하는 것입니다. 분류문제는 붓꽃(iris)의 데이터를 이용하여 진행하겠습니다. 붓꽃(iris) 데이터는 이름 그대로 붓꽃의 데이터인데 3종류(species)가 있습니다. Setosa, VIrginica, Versicolor 세 종류입니다. 각 종류마다 50개의 데이터가 있으니 전체 데이터 갯수는 150개 입니다. 각 관측치(붓꽃)마다 꽃받침(Sepal)의 길이와 폭 꽃잎(Petal)의 길이와 폭 4개의 변수가 있습니다. 즉 4개의 변수와 분류를 나타낸는 1개의 변수, 모두 5개의 변수로 구성됩니다. 분류트리의 예 다음은 분류트.. 2020. 8. 23. 4.3 엔트로피(entrophy)가 뭔가요? 볼 때마다 헷갈려 ^^^ 엔트로피가 뭐지? 엔트로피가 높으면 좋다는 건가? 나쁘다는 건가? ... 일단 엔트로피가 높으면(크면) 안 좋은 것이라고 생각하자... ... 청소를 안 하면 방안이 엔트로피가 높아진다... "엔트로피"도 볼 때마다 헷갈려.. 엔트로피를 검색해 보니 " 물리학에서 열역학 제2법칙은 열적으로 고립된 계의 총 엔트로피가 감소하지 않는다' " 엔트로피는 물질계의 열적 상태를 나타내는 물리량의 하나이며 간단하게 말해 무질서량이다" 그래서 어쩌라고? 무슨 소린지 잘 모르겠다. 암튼 "엔트로피는 무질서량이고, 그러면 엔트로피가 적을수록 좋다는 것이구나..." 이렇게 이해를 하자. 그러면 결정나무(Decision Tree)를 이용하게 되면 처음에는 무질서 상태로 있다가 (가지를 치면서) 점차 질서 상태로 가게 되는 .. 2020. 7. 11. 이전 1 다음