분류 전체보기240 2.3 Regulization - Ridge 실습 (참고: ISLR...수정중) 참고문헌: An Introductio to Statistical Learning with Applications in R 다음 프로그램은 ISLR 6장을 참고한 것입니다. 예제는 Hitters 인데 조금 어려운 것 같아서 보다 쉬운 샘플을 구상중 선형모델의 확장에 해당되는 내용입니다. 다루는 내용은 3가지 분야입니다. (1) 독립변수들의 부분집합 선택 ; subset 전진선택법(forward), 후진제거법(backward), 스텝와이즈법(stepwise) 관련지표 - Cp, AIC, BIC, Adjusted R2 (2) Ridge - 능선회귀 또는 능형회귀 라고 불림 Lasso (3) 주성분회귀(PCR, Principal Component Regression), 부분최소제곱 PLS, Partial Lea.. 2020. 7. 7. Latex 사용법(테스트) 아래 스크립트를 [블로그 관리]- [스킨 편집] - [html 편집] 후 head 아래에 아무곳에나 붙여넣으시면 됩니다. 이 스크립트를 적용하면 R markdown에서 사용하는 수식의 문법을 그대로 이용할 수 있습니다. 이 문법은 $표시로 수식의 시작과 끝을 나타내는데, 예를 들어 x의 제곱을 쓰고 싶다면 $표시를 두 번 사용후 x^2을 입력하고 $표시 두 번으로 수식이 끝났다고 표시하면 쉽게 x의 제곱을 나타낼 수 있습니다. $$x^2$$ $$\int_0^{2\pi} \sin x~dx$$ $$ 9\times9 $$ 앞 문장입니다! $2^{x\times y}$ 뒷 문장이에요! $$RSS=\sum _{i=1} ^{n} (y _{i} - \beta _{0} - \sum _{j=1} ^{p} \beta _{j.. 2020. 7. 5. (R3)제02강(3.0)회귀분석 - Ridge, Lasso(라쏘) Regression(보완중) 릿지(Ridge)와 라쏘(Lasso) 영어로도 비슷하고, 한글발음도 비슷합니다. R 과 L 한글발음으로 둘다 "ㄹ"이라 헷갈립니다. Ridge Regression 은 "능형회귀" 또는 "능선회귀"로 번역이 되고, Lasso 는 랏쏘로 사용되고 있습니다. 릿지와 라쏘... 20번 정도를 봤는데도 매번 헷갈립니다. 라쏘는 릿지의 단점을 극복한 기법입니다. 저는 참으로 오래전에(30여년 전에) Ridge("능형회귀") 는 들어 봤어도, 그동안 "Lasoo"는 들어본 적이 없었습니다. 그 당시에도 "Ridge"는 다중공선성 문제를 해결하는 방법으로만 알고 있었고, 일반 계량분석 연구자들도 거의 쓰지 않는 Advanced 기법이었습니다. 아마 그 뒤에 Ridge의 단점을 해결하기 위해 Lasso가 나온 모양입니다.. 2020. 7. 5. R에서 패키지 tm과 ts 가 어떻게 다른가? 참 간단한 질문이긴 한데, R에는 패키지가 만 개가 넘으니 헷갈리기도 합니다. 이름은 비슷하지만 전혀 다른 패키지이고, R 응용분야에 엄청나게 많이 사용되는 패키지입니다. tm 은 Text Mining 텍스트마이닝을 하는 패키지이고 ts 는 Time Series 시계열분석을 하는 패키지입니다. 2020. 7. 5. 통계분석 컨설팅을 하거나 의뢰를 할 때 어떻게 하나요?(수정중) 강의 중에 간혹 "통계분석 컨설팅할 때 어떤 과정을 거치나요?..." 질문을 받게 됩니다. 저도 처음 통계컨설팅을 하게 되었을 때 "통계분석 컨설팅을 어떻게 시작하고, 진행하며, 컨설팅 비용은 어떻게 결정하는가?" 궁금했습니다. 그리고 어떻게 알고 사람들이 찾아와서 컨설팅을 의뢰하는지 등등... 먼저 컨설팅 비용에 대하여 설명드립니다. 컨설팅을 의뢰하는 사람들이 제일 궁금해하는 부분입니다. 결론은 그때 그때 다릅니다. 생각보다 컨설팅 비용이 많이 듭니다. 아무리 간단한 컨설팅이라도 3~4번의 미팅을 가지게 됩니다. 가장 간단한 경우 1단계. 통계분석 의뢰를 하게 되고(연구방향 등 의논) 2단계. 데이터를 전달받고 전처리 등 3단계. 분석결과를 설명하면서 전달 과정을 거치게 됩니다. 간단하지요. 심지어는 .. 2020. 7. 5. t 검정과 카이제곱검정의 결과가 반대로 나온다??? t 검정은 단순히(?) 두 그룹간의 평균치차이를 검정하는 기법입니다. 두 그룹, 예를 들어 남자와 여자의 키의 차이가 있는지 분석하는 경우, 그냥 남자그룹의 키의 평균값을 구하고(숫자 1) 그냥 여자그룹의 키의 평균값을 구하고(숫자 2) 이 두 숫자가 차이가 있는지 없는지를 검정하는 기법입니다. 카이제곱법은 여러 그룹(두 또는 두 그룹 이상)의 분포를 검정하는 기법입니다. t 검정은 평균값을 비교하는 반면, 카이제곱법은 평균(숫자 하나)를 비교하는 것이 아닙니다. 두 그룹의 취미의 차이가 있는가를 분석하는 경우 남자 그룹의 취미의 평균값을 구하고( 취미는 평균값을 구할 수 없음), 여자 그룹의 취미의 평균(취미는 평균값을 구할 수 없음.) 이렇게 평균값을 구할 수 없는 경우, 명목척도의 경우에는 카이제곱.. 2020. 7. 3. 이전 1 ··· 34 35 36 37 38 39 40 다음