728x90

취업준비생 대상으로 강의를 할 때, 질문한 내용입니다.

(취준생 대상 강의는 3개월, 어떤 경우에는 6개월 코스도 있습니다.)

이런 과정에는 IT의 전반적인 것을 배우게 됩니다.

파이썬도 배우고, DBMS/SQL, R(R은 R언어와 통계학)

 

강의 중 쉬는 시간에 "통계학을 잘 모르는데, R강의를 따라 갈 수 있을까요?" 하는 질문을

받는 적이 간혹 있습니다.

"나의 강의는 평균, 분산, 정규분포 정도만 알면 됩니다.

"평균(Mean)"이야 초등학교 때부터 아는 것이고, "분산(Variance)"도 중학교 정도면 알 것이고,

"정규분포"는 고등학교 때 들은 것일 테고...

이 정도만 알면, 내가 강의하는 것을 따라올 수 있다고 합니다.

 

이 중에서 분산(variance)은 (변수의 값들-평균값)을 구하고 이를 제곱하여 더한 다음

n으로 나누든가? n-1로 나누든가 하여 구한다고 설명한 바 있습니다.

이때 제곱하여 더한 값을 제곱합이라고 합니다. 영어로 SS, Sum of Squares 정도 될 것 같고

예전에는 자승합이라고도 불리었습니다.

 

제곱합이 통계학에서 중요한 자리를 차지하고 있습니다. 이 제곱합의 의미를 알면

분산분석법, 회귀분석뿐 아니라 모형 검증... 또 뭐가 있을까? 머신러닝의 여러 알고리즘들의

의미를 알게 됩니다. 한 번 곰곰이 생각해 보세요... 과연 그럴까?

 

아니면 제곱합이니까 루트를 덮어 씌워서 제곱근을 생각해 보면, 이건 표준편차 개념일 거고...

제곱합이니까 L2라고 하던가,  그럼 제곱을 하지 않고 그냥 절댓값의 합을 구하면, 이건 L1 이라고 하던가

 

이렇게 통계학의 기초가 튼튼하면 딥러닝까지 이해하는데 많은 도움이 됩니다.

과연 그럴까? 진짜로 그렇습니다.

하긴 통계학이 보면 볼수록 만만치 않은 부분은 있지요?

 

저도 통계학 전공하신 교수님들을 보면 꾸~뻑 

통계학 전공하신 존경하는 교수님들도 자기가 전공한 분야만 알지

통계학에도 모르는 부분이 많다고 하시기는 하지만 

+ Recent posts