본문 바로가기

조인호83

(p3)제04강_01 파이썬으로 해 보는 의사결정나무 import numpy as np from sklearn import datasets # iris 데이터를 불러오기 from sklearn import tree # 의사결정나무 모듈 from sklearn.model_selection import train_test_split # 훈련데이터와 테스트 데이터 분류할 때 필요 from sklearn.preprocessing import StandardScaler # 표준화할 때 필요 iris = datasets.load_iris() # iris 데이터 로딩 X = iris.data y = iris.target model_tree = tree.DecisionTreeClassifier(criterion='entropy', max_depth=3, random_st.. 2020. 11. 10.
(R3)제08강_01 서포트벡터머신(SVM) 실행해 보기 -iris, e1071, caret 1995년에 Vapnik와 Cortes Support Vector Machine(SVM) 발표 참고서적: An Introduction to Statistical Learning with Applications in R "SVM의 초평면을 찾는 개념은 로지스틱회귀분석과 선형판별분석과 같은 고전적인 분류기법과는 명백히 다른 것처럼 보였다... 더욱이 비선형클래스 경계를 수용하기 위해 변수공간을 확장하는 Kernel을 사용하는 개념은 독특하고 귀중한 특징처럼 여겨졌다" "하지만 이후 SVM과 고전적인 다른 방법들 사이에 깊은 관련성이 있음이 드러났다" (ISLR 9장에서 인용) 저도 처음에 SVM 을 보면서 심지어는 말도 안된다고 생각했습니다. 초평면 SVM 공부를 하려면 제일 먼저 초평면이란 개념을 알아야 .. 2020. 11. 10.
(P)제29강(01)_시계열분석 실습: 파이썬 R과 SAS에서 실행한 시계열분석 실습을 이번에는 Python 으로 해 봅니다. 계속 보완해 나갈 계획입니다 ^^^ 그냥 단순한 60개의 데이터입니다. 향후 10개의 데이터를 예측해 보기로 합니다. 644 546 515 506 468 729 719 626 677 679 654 630 662 539 419 592 376 390 292 340 457 254 368 376 254 85 198 212 262 368 554 538 478 623 522 404 360 619 524 562 438 327 311 466 423 515 367 340 279 264 411 409 436 468 409 275 265 301 423 405 384 557 474 519 459 504 349 312 303 423 384 425 .. 2020. 10. 29.
(R)제8강 8.4 정규표현식(이메일 체크 추가 ^^^ ) 오랜만에 정규표현식을 다시 보게 됩니다. 정규표현식은 너무 다양하여 문법을 기억하기도 쉽지 않고 그렇다고 자주 사용하는 것도 아니라서 자주 까먹게 됩니다. 이런 경험은 "레이텍(Latex)" 을 공부할 때에도 느낀 점입니다. 위키백과에서 인용한 글 "grep은 엄밀히 말하면 두문자어(머리글자로 된 말)는 아니지만 global / regular expression / print 에서 각각의 머릿글자를 따 온 것이며 이것은 ed 텍스트 편집기에서 쓰이는 연속적인 지시어이다. grep 명령어는 파일이나 표준 입력을 검색하여 주어진 정규 표현식과 맞는 줄을 찾아 프로그램의 표준 출력으로 출력한다." 일단 다음과 같이 랜덤으로 id 란 벡터를 만들어 봅니다. id는 수시로 고쳐나갈 계획입니다. id >> grep.. 2020. 10. 22.
제21강(r) 21.1 Kaggle 이란 무엇인가? - titanic data kaggle(캐클) 2010년에 설립된 데이터 분석 경진대회 플랫폼 참고문헌: 캐글가이드(사카모토 도시유키 저, 박광수 옮김, 동양북스) Kaggle 우승작으로 배우는 머신러닝 탐구생활(정권우 지음, 비제이퍼블릭) www.kaggle.com (1) www.kaggle.com 접속 메뉴 살펴보기 우선 메뉴를 보면 다음과 같습니다. [Compete] [Datasets] [Notebooks] [Discuss] [Courses] ... [Jobs] [User Rankings] [Tags [Blog] [Documentation] [Progression] [Host a Competition] [Support/Contact] [Team] [Teams] [Privacy] 메뉴 살펴보기 [Compete] [Dataset.. 2020. 10. 7.
제1강(s) 1.1 왜 전처리가 필요한가. 통계분석 시작...(계속 수정) 이제 통계 편으로 "제1강" 입니다. 여러분들은 "SAS강좌편"(또는 "R강좌"편에서)을 통하여 SAS 사용법이나 R 사용법을 알고 있습니다. (파이썬도 포함해서요) 물론 그외 다양한 방법으로 어느 정도 사용법을 알고 있을 것입니다. 그럼 통계분석할 때 가장 간단한 분석으로는 어떤 것이 있을까요? 먼저 평균값이나 표준편차를 구해 보고... (네, 이를 유식하게 기술통계량이라고 합니다.) 그리고요... 뭐 남녀별로 급여 차이가 있는지, 꼭 남녀가 아니더라도 두 집단의 급여 차이 그런 거!!! (네, 이 때 사용하는 것이 t 검정이라고 합니다. 또요...) 흠, 그리고 분산분석, 상관분석, 회귀분석, 로지스틱회귀분석 등을 하게 됩니다. (이러한 것들도 SPSS, SAS를 쓰면 간단하게 됩니다. 특히 SPSS.. 2020. 10. 5.