조인호83 (R1)제15강(3.2) 텍스트마이닝- 패키지 tm 소개(Corpus 말뭉치, tm_map, wordcloud) 텍스트마이닝 관련하여 정리해 두었던 다시 정리를 해 봅니다. 텍스트마이닝에 많이 사용되는 패키지로는 영어 tm, 한글 KoNLP 가 있습니다. 우선 tm 패키지 사용법을 정리해 봅니다. 자료로는 인터넷을 통해 미국독립선언서를 구하여 사용했습니다. * 미독립선언서의 일부이긴 하지만 공유해도 되는 건지 잘 모르지만, 암튼 올려 봅니다. 이와 관련 문제가 있으면 저에게 알려 주시면 많은 도움이 되겠습니다. # 독립선언서(영어) 1단계. 독립선언서(영어)를 읽어 들입니다. indep library(tm) #----- 말뭉치(corpus) 만들기 > crude crude # 말뭉치 객체인 "crude" 을 보려고 >crude 를 치면 메타정보만 나오고 내용을 볼 수 없습니다. > class(crude) # [1].. 2020. 7. 30. (g)R 팁 - options( ) - 소수점 자리 표시(digits), 1e+05(scipen) ?options options() 소수점 자리 표시하기 > options(digits=5) > pi [1] 3.1416 # 5자리 표시 > options(digits=7) > pi [1] 3.141593 # 7자리 표시 > options(digits=22) # 22까지 오케 > pi [1] 3.1415926535897931 > options(digits=23) # 23 에러 Error in options(digits = 23) : invalid 'digits' parameter, allowed 0...22 options("digits") # $digits [1] 7 options("prompt") # "> " options(prompt='R> ') options(prompt='> ') options("s.. 2020. 7. 28. 제4강 4.1 데이터프레임 다루기 이번 시간은 데이터분석에서 가장 많이 사용되는 데이터프레임에 대하여 상세히 다룹니다.그리고 5번째 데이터객체인 리스트에 대해서 설명합니다. 그리고 5가지 객체를 다루면서 유의해야 할 사항들을 설명합니다. 외부 파일이나 엑셀 데이터를 R로 불러들일 때 기본적으로 데이터프레임 형태로 지원됩니다.● 데이터프레임은 행렬(matrix)과 비슷한 형태이지만, 데이터프레임은 열마다 자료형이 달라질 수 있습니다. ● 열로는 변수명을 가지고 행으로는 관찰치의 개념을 가지고 있는 것입니다. ● 데이터 프레임은 변수와 행으로 이루어진 객체로 엑셀, SAS 나 SPSS 등에서 많이 사용되는 형태입니다.● 벡터와 행렬을 이용하여 데이터프레임을 만들 수 있고, 외부 텍스트 데이터를 불러와 만들 수 있습니다● 데이터프레임에서 한 .. 2020. 7. 25. (R1)제03강(3.2) 행렬 연산 하기 - 행렬 +/-, 기술통계량, apply 사용하기 1. 행렬 더하기, 빼기 등 m1 2020. 7. 25. (R1)제03강(3.1) 행렬 다루기 - 행렬 만들기, 속성 살펴보기, 요소 접근하기 이번에는 행렬이라는 데이터 객체에 대하여 살펴봅니다. 행렬은 고등학교나 대학교에서 선형대수학 등 수학에서 다루었던 기억이 있을 것입니다. 이렇게 수학에서 사용되면서 일반인들에게 다소 생소한 행렬이 R에서는 데이터의 기본 객체 형태로 사용됩니다. 행렬은 행과 열로 구성된 사각형태의 데이터로 2차원적인 구조를 가집니다. 행렬은 행과 열의 개수, 행과 열의 이름을 속성으로 가지고 있습니다. 앞서 설명한 벡터 여러 개를 행 또는 열로 구성하면 행렬이 됩니다. 행렬은 만드는 방법은 2 가지가 있습니다. 벡터 여러 개를 이용하여 행 또는 열결합하여 만드는 방법과 하나의 벡터를 이용하여 행렬구조로 바꾸는 것입니다. 행렬을 만드는 방법으로 matrix( ) 함수를 이용하거나 다른 데이터 객체에 as.matrix( ) .. 2020. 7. 25. (R2)제11강(2.1) χ2-검정의 이론적 배경(r2,s2) "왜 χ2 검정을 적용하느냐?"에 대한 무책임 하면서도 가장 정확한 답변은 "해당 통계치가 χ2 분포를 따르기 때문이다."입니다. $$\chi^2 =\sum_i \sum_j (\frac{O_{ij} – E_{ij})^2}{E_ij}$$ 은 자유도 (n1-1) X (n2-1) 인 χ2 분포를 합니다. *** 제가 젊은 시절 처음 통계분석 컨설팅을 하게 되면서 궁금해 했던 부분입니다. 성별*취미생활 분석을 할 때 왜 비모수검정 기법인 카이제곱검정을 적용하는지 궁금했습니다. 카이제곱분포는 비모수적 분포가 아니고, 분산에 관한 모수적 분포라고 배웠습니다. 카이제곱분포는 분산을 분석할 떄 사용되는 분포이고, 카이제곱분포를 따르는 변수 2개를 서로 분모, 분자에 두고 나누면 F 분포를 따른다고 배웠는데 이렇게 분산.. 2020. 7. 24. 이전 1 ··· 8 9 10 11 12 13 14 다음