728x90

릿지(Ridge)와 라쏘(Lasso)

영어로도 비슷하고, 한글발음도 비슷합니다. R 과 L 한글발음으로 둘다 "ㄹ"이라 헷갈립니다.

Ridge Regression 은 "능형회귀" 또는 "능선회귀"로 번역이 되고,

Lasso 는 랏쏘로 사용되고 있습니다.

릿지와 라쏘... 20번 정도를 봤는데도 매번 헷갈립니다. 라쏘는 릿지의 단점을 극복한 기법입니다.

저는 참으로 오래전에(30여년 전에) Ridge("능형회귀") 는 들어 봤어도, 그동안 "Lasoo"는 들어본 적이 없었습니다.

그 당시에도 "Ridge"는 다중공선성 문제를 해결하는 방법으로만 알고 있었고,

일반 계량분석 연구자들도 거의 쓰지 않는 Advanced 기법이었습니다.

아마 그 뒤에 Ridge의 단점을 해결하기 위해 Lasso가 나온 모양입니다.

이렇듯 예전에는 첨단 기법들 이었는데, 이제는 (그래도 전문적이긴 하지만) 일반화되어 사용되고 있습니다.

 

릿지(Ridge)는 독립변수들의 갯수가 줄어드는 것이 아니고, 별로 의미가 없는 변수의 계수가 0에 가깝게 조정됩니다.

즉 독립변수의 갯수가 즐어들지 않지습니다.

라쏘(Lasso)는 이런 단점을 개선하여 몇 개의 계수를 0으로, 즉 독립변수의 갯수를 줄이는 것입니다. 

* 참고: 릿지(Ridge) 는 L2 이고 랏쏘(LRasso)는 L1 입니다. 

 

릿지(Ridge) 랏쏘(Lasso) Regression 에 대한 내용은 보통의 빅데이터분석 책을 보면 거의 나타나지 않고

몇몇의 책 모델링 관련 분야 책에 나타납니다.

그러므로 이상한 단어 Ridge, Lasso 회귀분석을 몰라도 그렇게 주눅들 것도 없습니다.

 

회귀분석 기법에서 의미있는 모형을 검토하는데 "전진선택법", "후진제거법", "스텝와이즈법" 등이 있습니다.

이는 독립변수들의 부분집합(서브셋)들을 구하여 회귀분석을 해 보는 기법입니다.

 

이와는 별도로 동일한 여러 개의 독립변수를 가지고 계수를 추정할 때, \

계수에 어떤 조건을 제한(contrained)하거나 규칙화? regulization 하는 개념을 도입하여,

설명변수의 계수값을 0 가까이 수축(shrink)하거나 일부 독립변수의 계수를 0으로 만드는 방법이 있습니다.

 

릿지(Ridge)랏쏘(Lasso)

릿지(Ridge) 회귀는 독립변수들 중에서 별로 중요치 않은 변수의 계수를 0 에 가깝도록 추정하고

랏쏘(Lasso) 회귀는 독립변수들 중 일부의 계수를 0 으로 추정하는 기법입니다.

랏쏘(Lasso) 는 원래 독립변수들에게서 계수의 값이 0 이 되면서, 독립변수의 갯수가 줄어드는 모형이라고 생각하면 됩니다.

 

능형 또는 Lasso 회귀분석을 하려면 패키지 glmnet 을 사용하면 됩니다.

 

 

참고문헌: An Introduction to Statistical Learning  

 

 

 

 

 

+ Recent posts