본문 바로가기

R강좌와 통계컨설팅 - 통계편/31_00. R 응용7

(R1)제15강(3.1) R응용(II) - KoNLP 설치 !!! https://blog.naver.com/sasrspss/222670371917 R응용(II) - KoNLP 설치 !!! 지난 번에는 성공했는데, R-4.0.2를 설치하고 다시 KoNLP를 설치하려다가 실패 인터넷에 있는 자료들... blog.naver.com 2021. 12. 23.
(R3)제14강(3.1) 텍스트마이닝 - TDM(Term Document Matrix) 텍스트마이닝(Text Mining) 관련 자료를 보다 보면 TDM과 DTM 단어가 나옵니다. 단어 순서만 바뀌어 있어서 헷갈리지만 둘 다 알 필요는 없고 TDM ... T 로 시작하는 것만 우선 이해를 하시면 됩니다. 다음과 같은 자료를 참고로 했습니다. 참고문헌: (1) R을 이용한 빅데이터 분석(임동훈 지음, 자유아카데미) (2) R를 이용한 텍스트마이닝(백영민 지음,한울) 그외 구글링 1. TDM 의 형태 우선 Matrix 이니까 2차원 데이터인 모양이다. Term은 단어이고 세로 방향, 행 Document 문서이니까 가로방향, 열 그리고 각 셀마다 빈도수가 나타나 있습니다. 문서1에는 단어 1이 8개 들어가 있는 것을 볼 수 있습니다. 단어 1은 각 문서(DOC) 마다 많이 들어가 있어 공통으로 .. 2020. 12. 22.
(4) 텍스트마이닝 - 문서간의 유사도(Similarity) 지난 시간에 TDM 가 주어지면 정규화된 TF를 구했습니다. 이제는 계량적 기법을 적용할 수 있게 되었습니다. 그러면 문서들(문서1, 문서 2,..., 문서 5)의 상관계수를 구할 수 있고, 문서들 간의 거리도 구할 수 있게 되었습니다. 문서들이 관측치가 되고 변수들이 단어가 되는 순간입니다. 그럼 Transpose 을 하면 되겠네요. 이것이 DTM 인가? Document Term Matrix TDM과 DTM 헷갈리기 시작하지요. 다시 한 번 생각해 보세요. 변수가 있는데 어떤 관측치들끼리 가까운가? 아항 군집분석(Cluster Analysis) 이구나 이래서 통계학에 대한 지식이 필요하고요, 텍스트 마이닝이란 것이 통계학의 군집분석을 알면 쉽게 이해가 됩니다. 이렇게 되면 관측치가 문서가 되고, 단어가.. 2020. 8. 1.
(2) 텍스트마이닝 - 말뭉치로 TermDocumentMatrix 형태로 만들기 텍스트마이닝- 패키지 tm 소개(Corpus 말뭉치, tm_map, wordcloud)에 이어서 설명합니다. 앞에서 일단 "crude" 망뭉치 파일(객체)가 있다고 가정합니다. 1단계. 망뭉치로 TDM 행렬을 만든다. tdm 2020. 7. 30.
(R1)제15강(3.2) 텍스트마이닝- 패키지 tm 소개(Corpus 말뭉치, tm_map, wordcloud) 텍스트마이닝 관련하여 정리해 두었던 다시 정리를 해 봅니다. 텍스트마이닝에 많이 사용되는 패키지로는 영어 tm, 한글 KoNLP 가 있습니다. 우선 tm 패키지 사용법을 정리해 봅니다. 자료로는 인터넷을 통해 미국독립선언서를 구하여 사용했습니다. * 미독립선언서의 일부이긴 하지만 공유해도 되는 건지 잘 모르지만, 암튼 올려 봅니다. 이와 관련 문제가 있으면 저에게 알려 주시면 많은 도움이 되겠습니다. # 독립선언서(영어) 1단계. 독립선언서(영어)를 읽어 들입니다. indep library(tm) #----- 말뭉치(corpus) 만들기 > crude crude # 말뭉치 객체인 "crude" 을 보려고 >crude 를 치면 메타정보만 나오고 내용을 볼 수 없습니다. > class(crude) # [1].. 2020. 7. 30.
(R1)제15강(0.0) R 응용(II) 목차 - 워드클라우드, 텍스트마이닝, 장바구니, Shiny 등 15.1. 워드 클라우드 403 15.1.1. 영문인 경우 405 15.1.2. 한글인 경우 406 15.2. 텍스트마이닝 409 15.2.1. 관련 패키지 살펴 보기 – httr, rvest 409 15.2.2. 웹크롤링 실습 410 15.2.2.1. 사이트 내용 가져오기 – get, post 410 15.2.2.2. 웹페이지에서 원하는 내용만 뽑아내기 (rvest) 410 15.3. 장바구니 분석 416 15.3.1. 관련 패키지 살펴 보기 – httr, rvest 416 15.4. shiny 417 15.4.1. 샤이니 실습 417 15.4.2. 샤이니 구조 421 2020. 7. 15.