본문 바로가기

머신러닝18

(P1)제01강(01)딥러닝 역사 - 수정 보완... 이제 딥러닝을 정리해 봅니다. 우선 딥러닝의 역사를 정리하여 보았습니다. 구글에서 "딥러닝의 역사"를 쳐 보면 많은 정보를 볼 수 있습니다. 그것을 정리해 본 것입니다. 물론 관련서적도 많이 참조하기도 했습니다. 계속 수정해 나갈 계획입니다. 참고 자료마다 조금씩 달라서 내용이 정확하게 맞지 않는 경우가 있습니다. 이 자료는 참고만 하시고 각자 추가하실 것을 권합니다. 그리고 틀린 부분이 있으시면 지적해 주시면 수정하도록 하겠습니다. 딥러닝의 역사를 시간대 순으로 보면 도움이 되더라구요. 그런데 연도에 대하여 너무 세부적으로 신경을 쓸 필요가 없는 듯 합니다. 무슨 시험 공부하듯 하실 필요는 없고, 대략 그러하구나.. 정도 참고자료: 처음배우는 인공지능 Deep Learning with R 3분 딥러닝 .. 2020. 9. 27.
7.1 나이브베이즈란? * "최대우도함수" "Maximum Likelihood Estimator"를 보다가 "likelihood"가 어디에 사용되는가? 에 대한 예제를 준비하다가 머신러닝의 한 기법인 "나이브베이즈("naivBayes")를 사례로 들면 되겠다는 생각에 정리해 보았습니다. 여기서는 iris 데이터의 경우를 예로 들었지만, 범주형데이터인 경우인 스팸메일인 경우 또는 Titanic 데이터를 정리하여 추후에 올릴려고 합니다. 베이지안은 과거의 이미 일어난 어떤 사건의 “사전확률”“사전 확률”을 알고 있을 때, 앞으로 어떤 사건이 일어날 확률(사후 확률)을(사후확률) 결정하는 이론입니다. 기초통계학에 나오는 베이즈 추론의 식은 다음과 같습니다. P(A|B)는 사건 B가 일어났을 때 사건 AA 가 일어날 조건부 확률을 말.. 2020. 8. 30.
4.1 의사결정나무 - 회귀(regression) 나무, 분류(classification)나무 의사결정나무는 회귀문제와 분류문제에 적용할 수 있습니다. 회귀문제는 회귀분석 같이 연속적인 변수에 대한 예측을 하는 것이고 분류문제는 판별분석 같이 어느 부류에 속하는 것인가를 예측하는 것입니다. 분류문제는 붓꽃(iris)의 데이터를 이용하여 진행하겠습니다. 붓꽃(iris) 데이터는 이름 그대로 붓꽃의 데이터인데 3종류(species)가 있습니다. Setosa, VIrginica, Versicolor 세 종류입니다. 각 종류마다 50개의 데이터가 있으니 전체 데이터 갯수는 150개 입니다. 각 관측치(붓꽃)마다 꽃받침(Sepal)의 길이와 폭 꽃잎(Petal)의 길이와 폭 4개의 변수가 있습니다. 즉 4개의 변수와 분류를 나타낸는 1개의 변수, 모두 5개의 변수로 구성됩니다. 분류트리의 예 다음은 분류트.. 2020. 8. 23.
4.3 엔트로피(entrophy)가 뭔가요? 볼 때마다 헷갈려 ^^^ 엔트로피가 뭐지? 엔트로피가 높으면 좋다는 건가? 나쁘다는 건가? ... 일단 엔트로피가 높으면(크면) 안 좋은 것이라고 생각하자... ... 청소를 안 하면 방안이 엔트로피가 높아진다... "엔트로피"도 볼 때마다 헷갈려.. 엔트로피를 검색해 보니 " 물리학에서 열역학 제2법칙은 열적으로 고립된 계의 총 엔트로피가 감소하지 않는다' " 엔트로피는 물질계의 열적 상태를 나타내는 물리량의 하나이며 간단하게 말해 무질서량이다" 그래서 어쩌라고? 무슨 소린지 잘 모르겠다. 암튼 "엔트로피는 무질서량이고, 그러면 엔트로피가 적을수록 좋다는 것이구나..." 이렇게 이해를 하자. 그러면 결정나무(Decision Tree)를 이용하게 되면 처음에는 무질서 상태로 있다가 (가지를 치면서) 점차 질서 상태로 가게 되는 .. 2020. 7. 11.
2.3 Regulization - Ridge 실습 (참고: ISLR...수정중) 참고문헌: An Introductio to Statistical Learning with Applications in R 다음 프로그램은 ISLR 6장을 참고한 것입니다. 예제는 Hitters 인데 조금 어려운 것 같아서 보다 쉬운 샘플을 구상중 선형모델의 확장에 해당되는 내용입니다. 다루는 내용은 3가지 분야입니다. (1) 독립변수들의 부분집합 선택 ; subset 전진선택법(forward), 후진제거법(backward), 스텝와이즈법(stepwise) 관련지표 - Cp, AIC, BIC, Adjusted R2 (2) Ridge - 능선회귀 또는 능형회귀 라고 불림 Lasso (3) 주성분회귀(PCR, Principal Component Regression), 부분최소제곱 PLS, Partial Lea.. 2020. 7. 7.
텍스트마이닝 - 감성분석 문장에 쓰인 내용이 "긍정적인 내용" 인가? "부정적인 내용" 인가를 분류하는 것... 어떤 과정을 거치면 될까? (1) 우선 문서(여러 문장)에 써 있는 단어들을 추출합니다. 어떻게... 텍스트 마이닝의 패키지 {tm} {KoNLP} 이용 (2) 문서에 있는 단어 중에서 "긍정단어"의 수와 "부정단어"의 수를 계산한다 어떻게... 2.1 단어중에서 "긍정어 사전"에 있는 단어의 갯수를 구합니다. 2.2 단어중에서 "부정어 사전"에 있는 단어의 갯수를 구합니다. 2.3 긍정어 단어 수 - 부정어 단어 수 를 구하여 => "감성점수" 2.4 감성점수 > 0 이면 긍정적인 사람... 감성점수 < 0 이면 부정적인 사람 (3) 필요한 파일은 "긍정어 사전" "부정어 사전" 이 있어야 겠네요... 2020. 6. 11.