본문 바로가기

조인호83

(R)제25강(02)_주성분분석 실습 R을 이용하면 (SAS에 비해) 프로그램을 훨씬 간단하게 작성할 수 있습니다. SAS에 익숙하신 분들은 PROC PRINCOMP를 사용하고 OUTPUT 문을 이용하여 SAS 데이터셋으로 저장하는 과정을 거칩니다. 물론 SAS와 R의 작업 프로세스는 같지만, R로는 훨씬 효율적으로 프로그램을 작성할 수 있습니다. 주성분분석에 많이 사용되는 함수로는 princomp( )와 prcomp( )가 있는데 제가 테스트를 해 보니 주성분loading 을 구하는 경우, 두 함수의 차이가 있었는데 prcomp 의 결과가 SAS와 같이 나오는 것을 보았습니다. 그외에 주성분점수 등은 같은 결과가 나왔습니다. 주성분분석을 하실 때 관련된 여러 함수를 사용하실 때 조금 유의해야 할 사항입니다. x1 2021. 12. 24.
(R1)제15강(3.1) R응용(II) - KoNLP 설치 !!! https://blog.naver.com/sasrspss/222670371917 R응용(II) - KoNLP 설치 !!! 지난 번에는 성공했는데, R-4.0.2를 설치하고 다시 KoNLP를 설치하려다가 실패 인터넷에 있는 자료들... blog.naver.com 2021. 12. 23.
(P)제18강(01)_t 검정(파이썬) - ttest_ind() : SAS, R 비교 파이썬으로 해 보는 t 검정입니다. 통계분석용으로 많이 사용되는 scipy 패키지를 이용합니다. 아나콘다를 설치하면 scipy가 자동으로 설치됩니다. scipy 패키지에서 통계분석 모듈인 stats를 불러오고, 그중 독립적인 두 집단 검정인 ttest_ind를 이용합니다. (참고적으로 SAS에서는 PROC TTEST; R에서는 패키지 {stats}의 t.test( )를 이용합니다.) 이렇게 R과 파이썬을 사용하는 방법이 유사합니다. R은 통계분석용으로 많이 사용되고 있고 파이썬은 분석용 솔루션을 개발하는데 많이 사용됩니다. >>> from scipy.stats import ttest_ind # 패키지 scipy의 stats 모듈에서 ttest_ind함수를 불러옴 x1 = [60,66,72,78,84,80.. 2021. 12. 18.
(S,R)제18강(01)_t 검정이란 "빅데이터에서의 R활용" 강의 중 통계학 강의를 할 때 먼저 설명하는 통계분석기법이 "카이제곱검정"과 "t 검정" 입니다. "카이제곱검정"은 조사설문지 등을 분석할 때 90% 이상 사용되는 통계분석기법이고, "t검정"은 분석기법 중에 가장 설명하기 쉬운 기법이기 때문입니다. "t 검정"은 간단하게 "남녀별 평균키의 차이가 있는가?"를 분석하는 기법이고 "카이제곱검정"은 간단하게 "남녀별 취미생활에 차이가 있는가"를 분석하는 기법입니다. 기초통계학 시간에는 "정규분포"를 배우고 나면 곧바로 "t 분포"를 배우게 되는데, 이 t 분포를 따르는 변수를 분석하는 것이 t 검정입니다. (1) t 분포의 역사 이렇게 간단한 't분포', 't 검정'은 't' 라는 단어때문에 처음 통계학을 공부하는 사람들에게는 많은 .. 2021. 12. 18.
(R1,P1)제02강(01)모형 평가 지표 -SSE, MSE, MAE, MAPE 예측을 얼마나 잘 했는가를 평가하는 지표에는 다음과 같은 것들이 있습니다. (모형평가에서는 "모형평가지표", 예측에서는 "예측평가지표" 라고 부릅니다) 지표의 값이 작을수록 예측을 잘 한 것입니다. 그러면 어떤 지표는 모델 A가 (모델B보다) 작고, 어떤 지표는 모델A가 (모델 B보다) 크면 어떻게 해야 할까요? 그러니까 너무 지표... 지표... 하면서 무조건 작은 값이 최고... 라는 생각을 버리고 현장(Domain Knowledge)의 소리를 들으셔야 합니다... ◯ 오차제곱합(SSE, Sum of Squared Error) ◯ 평균 오차제곱(MSE, Mean Squared Error) ◯ 평균 절대편차(MAE, Mean Absolute Deviation) ◯ 평균 절대 퍼센트오차(MAPE, Mea.. 2021. 12. 16.
(S,R)제22강(01)_로지스틱회귀분석이란?(s) 예전에는 로지스틱회귀분석은 회귀분석의 특수한 형태로 종속변수가 0 또는 1을 가질 때에 적용하는 분석기법 정도로 설명을 하곤 했습니다. 그러다가 머신러닝 분야가 관심을 갖게 되면서 로지스틱 회귀분석이 많은 관심을 갖게 되고 통계학에서 머신러닝으로 넘어가는 징검다리의 역할을 하게 됩니다. 로지스틱회귀분석에서 나오는 몇가지 용어를 알아야 합니다. 오즈, 오즈비, 로짓, 로지스틱회귀모형 등입니다. 오즈는 p/(1-p) 즉 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값입니다. 오즈값이 4이면 성공할 확률이 실패할 확률보다 4배인 것을 의미합니다. 오즈비(ratio) 는 말 그대로 오즈의 비율입니다. 그러니까 오즈값이 두개가 있으면 이 두 오즈값의 비율을 의미합니다. 어떤 사건이 A 조건하에서 발생할 확률.. 2021. 12. 13.