머신러닝13 (R3)제06강_01_랜덤포리스트 - iris, caret 의사결정 트리에서 사용되었던 데이터인 붓꽃 데이터(iris)를 이용하여 랜덤 포리스트(RandomForest)를 실행합니다. 사용되는 패키지는 {randomForest} 이고, 사용되는 함수도 randomForest() 입니다. install.packages("randomForest") # 패키지 randomForest 설치하기 library(randomForest) # 패키지 로드하기 set.seed(1234) # 난수를 일정하게 생성하도록 seed를 지정... 1234 가 아니라도 무방합니다. model_ran 2020. 11. 10. (P1)제01강(01)딥러닝 역사 - 수정 보완... 이제 딥러닝을 정리해 봅니다. 우선 딥러닝의 역사를 정리하여 보았습니다. 구글에서 "딥러닝의 역사"를 쳐 보면 많은 정보를 볼 수 있습니다. 그것을 정리해 본 것입니다. 물론 관련서적도 많이 참조하기도 했습니다. 계속 수정해 나갈 계획입니다. 참고 자료마다 조금씩 달라서 내용이 정확하게 맞지 않는 경우가 있습니다. 이 자료는 참고만 하시고 각자 추가하실 것을 권합니다. 그리고 틀린 부분이 있으시면 지적해 주시면 수정하도록 하겠습니다. 딥러닝의 역사를 시간대 순으로 보면 도움이 되더라구요. 그런데 연도에 대하여 너무 세부적으로 신경을 쓸 필요가 없는 듯 합니다. 무슨 시험 공부하듯 하실 필요는 없고, 대략 그러하구나.. 정도 참고자료: 처음배우는 인공지능 Deep Learning with R 3분 딥러닝 .. 2020. 9. 27. 7.1 나이브베이즈란? * "최대우도함수" "Maximum Likelihood Estimator"를 보다가 "likelihood"가 어디에 사용되는가? 에 대한 예제를 준비하다가 머신러닝의 한 기법인 "나이브베이즈("naivBayes")를 사례로 들면 되겠다는 생각에 정리해 보았습니다. 여기서는 iris 데이터의 경우를 예로 들었지만, 범주형데이터인 경우인 스팸메일인 경우 또는 Titanic 데이터를 정리하여 추후에 올릴려고 합니다. 베이지안은 과거의 이미 일어난 어떤 사건의 “사전확률”“사전 확률”을 알고 있을 때, 앞으로 어떤 사건이 일어날 확률(사후 확률)을(사후확률) 결정하는 이론입니다. 기초통계학에 나오는 베이즈 추론의 식은 다음과 같습니다. P(A|B)는 사건 B가 일어났을 때 사건 AA 가 일어날 조건부 확률을 말.. 2020. 8. 30. 4.1 의사결정나무 - 회귀(regression) 나무, 분류(classification)나무 의사결정나무는 회귀문제와 분류문제에 적용할 수 있습니다. 회귀문제는 회귀분석 같이 연속적인 변수에 대한 예측을 하는 것이고 분류문제는 판별분석 같이 어느 부류에 속하는 것인가를 예측하는 것입니다. 분류문제는 붓꽃(iris)의 데이터를 이용하여 진행하겠습니다. 붓꽃(iris) 데이터는 이름 그대로 붓꽃의 데이터인데 3종류(species)가 있습니다. Setosa, VIrginica, Versicolor 세 종류입니다. 각 종류마다 50개의 데이터가 있으니 전체 데이터 갯수는 150개 입니다. 각 관측치(붓꽃)마다 꽃받침(Sepal)의 길이와 폭 꽃잎(Petal)의 길이와 폭 4개의 변수가 있습니다. 즉 4개의 변수와 분류를 나타낸는 1개의 변수, 모두 5개의 변수로 구성됩니다. 분류트리의 예 다음은 분류트.. 2020. 8. 23. 역전파(?) 뭐예요... 역("거꾸로") 전파("전달한다")... 逆傳播 "머신러닝", "머신러닝" 하니까 새로운 것인 줄 알고 들여다보니 머신러닝의 여러 기법들이 통계학의 다변량 분석기법들과 거의 같은 것을 알고 머신러닝이 다변량 통계기법과 비슷하고, 알고리즘을 의미하는 모양이구나... 생각하게 되었습니다. 그러다 딥러닝 세미나에 참석하게 되었는데 "역전파" "역전파" 하길래 무슨 "전자기파"의 일종으로 딥러닝에서는 "음파" "파장" 같은 것을 다루는 모양이구나 라고 생각했습니다. "역전파"는 역逆으로 전파되는 무슨 "전자기파"의 개념을 이용한 모형인 모양이구나.... 알고 보니 그런 뜻이 아니고 "역(거꾸로, 逆)으로 전파(전달하는, propagation) 傳播되는 것" ^^^ 딥러닝의 Hidden Layer 모형, 그리고 "백 프로프게이션"이라... 멋진 생각들... 어.. 2020. 7. 8. (S,R)제23강(01) 카이제곱검정이란? 조사자료분석에서 가장 많이 사용되는 기법이 바로 χ2 (카이제곱이라 읽는다)제곱법(chi square test)입니다. 앞서 다룬 t검정, 분산분석법, 회귀분석법 등은 모수적기법이라 그러고 카이제곱법은 평균값등을 구하지 않는 아주 쉬운(?) 아주 이해하기 쉬운(?) 비모수기법입니다. 그냥 빈도수를 구하여 어쩌구... 저쩌구... 하여 결론을 내리는 간단한 기법입니다. 그런데 이 카이제곱법이 엄청 유용하게 사용됩니다. 카이제곱검정은 명목변인들간의 상호관련성 여부에 관한 검정을 행하는 통계기법입니다. 예를 들면 남녀별로 취미생활에 대한 차이가 있는지를 보고자 할 때 사용하는 방법입니다. 일반 설문조사의 90% 이상이 χ2검정의 적용을 필요로 합니다. 1. 귀하의 성별은 ? (1)남 (2) 여 2. 귀하가 즐.. 2020. 7. 2. 이전 1 2 3 다음