텍스트마이닝3 (R3)제14강(3.1) 텍스트마이닝 - TDM(Term Document Matrix) 텍스트마이닝(Text Mining) 관련 자료를 보다 보면 TDM과 DTM 단어가 나옵니다. 단어 순서만 바뀌어 있어서 헷갈리지만 둘 다 알 필요는 없고 TDM ... T 로 시작하는 것만 우선 이해를 하시면 됩니다. 다음과 같은 자료를 참고로 했습니다. 참고문헌: (1) R을 이용한 빅데이터 분석(임동훈 지음, 자유아카데미) (2) R를 이용한 텍스트마이닝(백영민 지음,한울) 그외 구글링 1. TDM 의 형태 우선 Matrix 이니까 2차원 데이터인 모양이다. Term은 단어이고 세로 방향, 행 Document 문서이니까 가로방향, 열 그리고 각 셀마다 빈도수가 나타나 있습니다. 문서1에는 단어 1이 8개 들어가 있는 것을 볼 수 있습니다. 단어 1은 각 문서(DOC) 마다 많이 들어가 있어 공통으로 .. 2020. 12. 22. (R1)제15강(3.2) 텍스트마이닝- 패키지 tm 소개(Corpus 말뭉치, tm_map, wordcloud) 텍스트마이닝 관련하여 정리해 두었던 다시 정리를 해 봅니다. 텍스트마이닝에 많이 사용되는 패키지로는 영어 tm, 한글 KoNLP 가 있습니다. 우선 tm 패키지 사용법을 정리해 봅니다. 자료로는 인터넷을 통해 미국독립선언서를 구하여 사용했습니다. * 미독립선언서의 일부이긴 하지만 공유해도 되는 건지 잘 모르지만, 암튼 올려 봅니다. 이와 관련 문제가 있으면 저에게 알려 주시면 많은 도움이 되겠습니다. # 독립선언서(영어) 1단계. 독립선언서(영어)를 읽어 들입니다. indep library(tm) #----- 말뭉치(corpus) 만들기 > crude crude # 말뭉치 객체인 "crude" 을 보려고 >crude 를 치면 메타정보만 나오고 내용을 볼 수 없습니다. > class(crude) # [1].. 2020. 7. 30. R에서 패키지 tm과 ts 가 어떻게 다른가? 참 간단한 질문이긴 한데, R에는 패키지가 만 개가 넘으니 헷갈리기도 합니다. 이름은 비슷하지만 전혀 다른 패키지이고, R 응용분야에 엄청나게 많이 사용되는 패키지입니다. tm 은 Text Mining 텍스트마이닝을 하는 패키지이고 ts 는 Time Series 시계열분석을 하는 패키지입니다. 2020. 7. 5. 이전 1 다음