머신러닝 입문과정을 듣게 되면 멋있게(?) 접하는 부분이 "워드클라우드"입니다. "여러 문장에서 단어를 추출하여 관심이 가장 많은 단어가 어떤 것인가?"를 그림으로 보여주는 워드클라우드, 어떻게 이것이 가능할까?
내 손으로 해 보고 싶은데, 원리는 간단합니다. 그냥 "단어"와 "빈도" 만 있으면 워드클라우드를 실행할 수 있습니다.
install.packages("wordcloud") # 패키지 wordcloud 를 설치
library(wordcloud) # 패기지 로드
word <- c('morning','coffee','book','audio') # 관심이 있는 단어(벡터로 입력합니다)
count <- c(4,5,6,7) # 이제 단어의 빈도수를 입력합니다(빈도수를 알고 있다고 가정)
wordcloud(word,count) # 단어(변수 word)와 빈도수(변수 count)를 이용하여 워드클라우드를 그립니다
pal <- brewer.pal(8,"Dark2") # 워드클라드의 색상을 바꿔 지정해 봅니다.
wordcloud(word,count,,col=pal) # 다시 워드클라우드를 그립니다.
이제 단어와 빈도수가 외부파일(csv) 파일로 되어 있는 경우를 워드클라우드로 나타내 보겠습니다.
doc01 <- read.csv("wordcloud_01.csv")
doc01
wordcloud(doc01$word,doc01$count)
이제 보다 많은 단어와 빈도수를 적용해 보겠습니다.
doc03 <- read.csv("wordcloud_03.csv",encoding="EUC_KR") # 한글이 깨어짐을 막기 위해 encoding="EUC_KR"
doc03
wordcloud(doc02$word,doc02$count)
이제 일반 문서를 가지고, 문서에서 많이 나오는 "단어"와 "빈도수"를 구하기만 하면 됩니다.
'R강좌와 통계컨설팅 - 통계편 > 31_00. R 응용' 카테고리의 다른 글
(R3)제14강(3.1) 텍스트마이닝 - TDM(Term Document Matrix) (0) | 2020.12.22 |
---|---|
(4) 텍스트마이닝 - 문서간의 유사도(Similarity) (0) | 2020.08.01 |
(2) 텍스트마이닝 - 말뭉치로 TermDocumentMatrix 형태로 만들기 (0) | 2020.07.30 |
(R1)제15강(3.2) 텍스트마이닝- 패키지 tm 소개(Corpus 말뭉치, tm_map, wordcloud) (0) | 2020.07.30 |
(R1)제15강(0.0) R 응용(II) 목차 - 워드클라우드, 텍스트마이닝, 장바구니, Shiny 등 (0) | 2020.07.15 |