728x90

===============================================

수많은 단어들 중에 헷갈리는 단어들이 있습니다.

표준화(standardize)정규화(normalize),

릿지 regression(능형회귀분석)과 라소(Lasso) 회귀분석 등

================================================ 

표준화와 정규화 단어 중에서 먼저  표준화만 알면 됩니다...

표준이니까 우선 영어로 standard,  표준화는 standardise

표준이니까 일단 평균을 빼고, 표준편차로 나누는 것..

$$z= \frac{x- \bar{X}} {\sigma }$$

[SAS]

DATA a1;                                 
INPUT gender $ wei hei age;              
CARDS;                                   
F 65 171 23
F 66 172 24
F 69 176 38
M 67 173 43
M 68 177 40
M 72 178 42                             

PROC PRINT; RUN;    * 데이터 확인
PROC STANDARD M=0 STD=1 OUT=out1;   * 평균이 0, 표준편차 1인 표준화
RUN;
PROC PRINT;RUN;    * 표준화 데이터 확인
PROC MEANS DATA=out1 MAXDEC=2;   * 표준화된 데이터를 평균과 표준편차 구하기, 당연히 평균 0, 표준편차 1
RUN;
PROC CORR DATA=a1 COV;VAR wei hei age;   * 원래 표준화 하기전 공분산과 상관계수 구하기;
RUN;
PROC CORR DATA=out1 COV;VAR wei hei age; * 표준화된 이후의 데이터의 공분산은 원래 데이터의 상관계수와 같다
RUN;

표준화하기 전의 공분산과 상관행렬

 

표준화한 데이터의 공분산과 상관행럴(같다)                    원래 데이터의 상관행렬과 표준화된 데이터의 공분산이 같다

[R]

#* (1.1) 표준화 ----
wei <- c( 65, 66, 69, 67, 68, 72)
hei <- c(171,172,176,173,177,178)
age <- c(23,24,38,43,40,42)
a1 <- data.frame(wei,hei,age)
scale(a1,center = TRUE,scale=TRUE)
# center = TRUE,scale=TRUE: 평균 빼고, 표준편차로 나눔
# scale(a1,center = FALSE,scale=TRUE)

#* (1.2) 정규화 ----
age_nor <- (age-min(x)) /(max(age)-min(age))
age_nor

[정규화]

* 이제 정규화를 생각해 보자. 

(원래값 - 최소값) / (최대값-최고값) 

정규화를 하면 범위가 0~1 사이가 되겠구나....

 

"정규화" 영어로 하면 normalize 여기까지...

정규분포가 normal 분포... 생각도 말자 제발 정규분포랑 연관되어 생각 말자

다시 표준화만 생각하지

+ Recent posts