지난 시간에 TDM 가 주어지면 정규화된 TF를 구했습니다. 이제는 계량적 기법을 적용할 수 있게 되었습니다.

그러면 문서들(문서1, 문서 2,..., 문서 5)의 상관계수를 구할 수 있고, 문서들 간의 거리도 구할 수 있게 되었습니다.

문서들이 관측치가 되고 변수들이 단어가 되는 순간입니다.

그럼 Transpose 을 하면 되겠네요. 이것이 DTM 인가? Document Term Matrix

TDM과 DTM 헷갈리기 시작하지요.

다시 한 번 생각해 보세요.

변수가 있는데 어떤 관측치들끼리 가까운가? 아항 군집분석(Cluster Analysis) 이구나

이래서 통계학에 대한 지식이 필요하고요, 텍스트 마이닝이란 것이 통계학의 군집분석을 알면 쉽게 이해가 됩니다.

이렇게 되면 관측치가 문서가 되고, 단어가 변수가 되는건가?

단어란 변수들을 이용하여 관측치(문서)들을 군집화하는 건가?

그럼 군집분석을 먼저 공부하는 것도 도움이 되겠네 ^^^

* 가만: 문서 간 거리가 크면          => 문서간 서로 관련성이 적은 거구나

         문서간 상관계수가 높으면  => 문서간 서로 관련성이 많은 거구나

+ Recent posts