본문 바로가기

분류 전체보기240

(R1)제17강(6.1) 리눅스 설치 - 하둡 , 자바설치 하둡(Hadoop) - 대용량 데이터를 처리하기 위해 개발된 자바 기반 오픈소스 - 분산 파일 시스템 HDFS Hadoop Distributed File System 맵리듀스(MapReduce) - 분산처리 시스템 - HDFS에 데이터를 저장하고, 맵리듀스를 이용하여 데이터를 처리 - HDFS : Master-Slave 구조로 되어 있음 네임 노드 : Master 역할을 하는 네임 노드 HDFS의 메터 데이터를 관리 데이터 노드 : Slave 역할을 하는 데이터노드 실제 데이터가 분산 저장되어 있음 네임 노드와 데이터 노드 수시로 통신 데이터 파일을 여러 개 블록으로 나누어 저장하면서, 여러 서버에 분산 저장 그러면서 보통 3개를 복제하여 다른 노드에 위치하게 함 - 데이터 관리 신뢰성 높임 - 맵리뉴스.. 2020. 6. 16.
텍스트마이닝 - 감성분석 문장에 쓰인 내용이 "긍정적인 내용" 인가? "부정적인 내용" 인가를 분류하는 것... 어떤 과정을 거치면 될까? (1) 우선 문서(여러 문장)에 써 있는 단어들을 추출합니다. 어떻게... 텍스트 마이닝의 패키지 {tm} {KoNLP} 이용 (2) 문서에 있는 단어 중에서 "긍정단어"의 수와 "부정단어"의 수를 계산한다 어떻게... 2.1 단어중에서 "긍정어 사전"에 있는 단어의 갯수를 구합니다. 2.2 단어중에서 "부정어 사전"에 있는 단어의 갯수를 구합니다. 2.3 긍정어 단어 수 - 부정어 단어 수 를 구하여 => "감성점수" 2.4 감성점수 > 0 이면 긍정적인 사람... 감성점수 < 0 이면 부정적인 사람 (3) 필요한 파일은 "긍정어 사전" "부정어 사전" 이 있어야 겠네요... 2020. 6. 11.
(R1)제15강(1.1) 워드클라우드(wordcloud) 간단하게 실행해 보기 머신러닝 입문과정을 듣게 되면 멋있게(?) 접하는 부분이 "워드클라우드"입니다. "여러 문장에서 단어를 추출하여 관심이 가장 많은 단어가 어떤 것인가?"를 그림으로 보여주는 워드클라우드, 어떻게 이것이 가능할까? 내 손으로 해 보고 싶은데, 원리는 간단합니다. 그냥 "단어"와 "빈도" 만 있으면 워드클라우드를 실행할 수 있습니다. install.packages("wordcloud") # 패키지 wordcloud 를 설치 library(wordcloud) # 패기지 로드 word 2020. 6. 3.
r_09_201. ggplot2 -R의 강력한 그래픽 기능 R 은 그래픽 기능이 뛰어난 것이 커다란 매력적인 장점입니다.R 설치하면 기본적으로 설치되는 base에 그래픽이 뛰어납니다.제가 강의할 때에는 주로 Base 그래픽 기능을 설명합니다.그런 다음에 ggplot2를 설명합니다.ggplot2 를 포함하여 그래픽에 대한 설명을 한두 시간만으로 다룰 수 없는 방대한 내용이기에 기본적인 것만 설명합니다.  install.packages("ggplot2") library(ggplot2)# 패키지에는 11개의 샘플데이터가 있습니다. 여기에 많이 사용되는 데이터가 mpg, diamonds, mpg 가 있습니다.그리고 샘플 프로그램이 있어 실행해 보면서 감을 잡아 나가면 됩니다.다시 한번 말씀드리지만 그래픽을 너무 방대하여 오랜 시간을 갖고 연습을 하셔야 합니다. 2020. 6. 2.
분산분석법이란? 분산분석법이란(ANOVA)설문지 분석 - 분산분석법일원분산분석법(1) 이론적 배경(2) 실습이원분산분석법(1) 이론적 배경(2) 실습(3) 사후비고(4) 교호작용이 있는 경우난괴법(Randomized Block Design)분산분석법의 기타 논제(1) t 검정과의 비교(2) 비모수 분산분석법-클루스칼-왈리스 검정 PROC ANOVA 의 형태R 프로그램 - 분산분석법 분산분석법이란(ANOVA)분산분석법은 문자 그대로 분산(Variance)을 분석(Analyis)하는 기법입니다.그래서 Analysis of Variance 줄여서 ANOVA 간단하지요. 간혹 F 검정이라고도 합니다.왜냐하면 관련통계량이 F 분포를 따르니까요...그럼 우선 분산(Variance) 이 문가를 알아야 되겠네요. 분산은 중학교 때 부.. 2020. 5. 30.
처음으로 시작하는 R통계분석공부(R statistical Analysis Study) SAS로 오래동안 컨설팅을 해 왔습니다. 이제는 R을 즐겁게 보고 있습니다. SAS 에서 하던 경험들이 R로 가능한지를 검토하여 왔고, 검토하고 있습니다. 어떤 때에는 SAS가 낫고, 어떤 때에는 R이 최고!! 라는 느낌도 듭니다. SAS University Edition으로 분석결과와 R의 분석결과를 비교해 보기도 합니다. 이제 티스토리를 신청하고 글을 써 봅니다. 아직 부족한 점이 많지만, 하루 하루 나아지겠지요. 많은 분들과 소통을 하고 싶어서 2020. 5. 29.