728x90

군집분석(Cluster Analysis)은 관측 대상들 간에 어떤 공통 특징을 찾아 비슷한 특징을 갖는 관측치들 끼리 군집(Cluster)을 형성하는 방법입니다.

서로 상사성(Similarity)이 높은 관측치(객체)들은 같은 군집으로 묶고, 상대적 상사성이 낮은 객체들은 서로 다른 군집으로 묶습니다.

예를 들어 10명을 대상으로 키, 몸무게 등 여러 가지 신체특성을 측정하여 비슷한 신체특성을 갖는 사람들끼리 3 또는 4개의 군집을 구성하여, 각 군집별로 그 군집이 갖는 특유한 성질 즉 키가 크고 몸무게도 큰 군집, 키는 크고 몸무게는 작은 군집 등의 성질을 찾아내는 데 이용됩니다.

군집을 형성하는 과정에는 다음과 같은 방법이 있습니다.

 

병합적 방법

관측대상 각자를 하나의 별개의 군집으로 생각하여 관측대상의 갯수만큼 군집이 있다고 가정합니.

그리하여 이 군집들간에 상사성(Similarity) 혹은 거리를 측정하여 가장 가까운 군집끼리 단계적으로 병합하여

최종적으로 모든 관측대상이 한 군집으로 형성되게끔 하는 과정의 기법입니다.

 

Partitioning 기법

이 기법은 연구자에 의해 군집의 수가 사전에 미리 결정되는 경우에 사용되며, 계보적으로 군집을 형성하는 것이 아니고 관측대상을 군집으로 할당시키는 형태를 취합니.

즉 각 군집에 대한 판정기준(초기치) 결정하고 이에 따라 관측대상을 각 군집에 할당하는 방법을 취합니.

여기서 초기치라 함은 각 관측대상을 군집의 중심(Centroid)으로 하고 이에 따른 오차제곱합에 기초를 두고

구해지는 값으로서, 구하는 공식이나 과정은 상당한 지식과 이해를 요하므로 관련 참고서적을 참조하기 바랍니다.

 

다음은 SAS 메뉴얼에 나와 있는 미국 10개 도시간의 비행거리의 예입니다.

이들 비행거리로 볼 때 가까운(상사성이 높은) 도시끼리 군집을 형성하는 군집분석의 예입니다.

+ Recent posts