하둡(Hadoop)
- 대용량 데이터를 처리하기 위해 개발된 자바 기반 오픈소스
- 분산 파일 시스템 HDFS Hadoop Distributed File System
맵리듀스(MapReduce) - 분산처리 시스템
- HDFS에 데이터를 저장하고, 맵리듀스를 이용하여 데이터를 처리
- HDFS : Master-Slave 구조로 되어 있음
네임 노드 : Master 역할을 하는 네임 노드
HDFS의 메터 데이터를 관리
데이터 노드 : Slave 역할을 하는 데이터노드
실제 데이터가 분산 저장되어 있음
네임 노드와 데이터 노드 수시로 통신
데이터 파일을 여러 개 블록으로 나누어 저장하면서, 여러 서버에 분산 저장
그러면서 보통 3개를 복제하여 다른 노드에 위치하게 함 - 데이터 관리 신뢰성 높임
- 맵리뉴스 :Job Tracker
Job Tracker - 네임 노드와 같은 서버에 위치
Task Tracker - 데이터 노드와 같은 서버에 위치
설치 모드
독자 모드 : 단일 노드, 로컬 모드... 하둡의 기본 모드, HDFS 사용하지 않음
가상 분산 모드 : 의사 분산 모드, 단일모드 + 클러스터 구성 , 한대의 컴퓨터에 모든 노드 설치, HDFS 사용
멀티 분산 모드 : 두 대 이상의 노드를 클러스터로 묶음
자바 설치
하둡은 자바 기반...
sudo apt-get install openjdk-8-jdk
java -version
/usr/lib/jvm : 자바를 설치하면 자동으로 설치되는 경로
java-1.8.0-openjdk-amd64 : 심볼릭 링크
java-8-openjdk-amd64 : 자바가 설치된 디렉터리
sudo ln -s java-8-openjdk-amd64 jdk
자바 환경변수 PATH 설정
환경변수 설정 : ". bashrc " 파일에 설정
사용자의 홈 디렉터리 /home/ubutu 에 있는 설정 파일
JAVA_HOME=/usr/lib/jvm/jdk
export JAVA_HOME
또는
export JAVA_HOME=/usr/lib/jvm/jdk
$ source .bashrc # source 명령을 이용. bashrc 파일을 업데이트
$ echo JAVA_HOME # 환경변수 JAVA_HOME을 확인
'R강좌와 통계컨설팅 - 통계편 > 17. 리눅스와 R(R1)' 카테고리의 다른 글
(R1)제17강(3.1) 리눅스 - R 실행 (0) | 2020.11.27 |
---|---|
(R1)제17강(3.1) 리눅스 - RStudio (0) | 2020.11.27 |
(R1)제17강(1.1) 리눅스(Linux)에 대한 정리(정리중) (0) | 2020.11.27 |
(R1)제17강(1.2) VirtualBox & CentOS (수정중) (0) | 2020.06.22 |
(R1)제17강(5.1) 리눅스 설치 - apt-get (0) | 2020.06.17 |