728x90

하둡(Hadoop)

- 대용량 데이터를 처리하기 위해 개발된 자바 기반 오픈소스

- 분산 파일 시스템 HDFS Hadoop Distributed File System

  맵리듀스(MapReduce) - 분산처리 시스템

- HDFS에 데이터를 저장하고, 맵리듀스를 이용하여 데이터를 처리

 

- HDFS : Master-Slave 구조로 되어 있음

     네임 노드 : Master 역할을 하는 네임 노드 

                   HDFS의 메터 데이터를 관리

     데이터 노드 : Slave 역할을 하는 데이터노드

                    실제 데이터가 분산 저장되어 있음

     네임 노드와 데이터 노드 수시로 통신

     데이터 파일을 여러 개 블록으로 나누어 저장하면서, 여러 서버에 분산 저장

       그러면서 보통 3개를 복제하여 다른 노드에 위치하게 함 - 데이터 관리 신뢰성 높임

 

- 맵리뉴스 :Job Tracker

      Job Tracker  - 네임 노드와 같은 서버에 위치

      Task Tracker - 데이터 노드와 같은 서버에 위치

 

설치 모드

독자 모드 : 단일 노드, 로컬 모드... 하둡의 기본 모드, HDFS 사용하지 않음

가상 분산 모드 : 의사 분산 모드, 단일모드 + 클러스터 구성 , 한대의 컴퓨터에 모든 노드 설치, HDFS 사용

멀티 분산 모드 : 두 대 이상의 노드를 클러스터로 묶음

 

자바 설치  

하둡은 자바 기반...

sudo apt-get install openjdk-8-jdk

java -version

/usr/lib/jvm  : 자바를 설치하면 자동으로 설치되는 경로

  java-1.8.0-openjdk-amd64 : 심볼릭 링크

  java-8-openjdk-amd64  : 자바가 설치된 디렉터리

 

sudo ln -s java-8-openjdk-amd64  jdk

 

자바 환경변수 PATH 설정

환경변수 설정 : ". bashrc " 파일에 설정

사용자의 홈 디렉터리 /home/ubutu 에 있는 설정 파일

 

JAVA_HOME=/usr/lib/jvm/jdk

export JAVA_HOME

또는

export JAVA_HOME=/usr/lib/jvm/jdk

 

$ source .bashrc    # source 명령을 이용. bashrc 파일을 업데이트

$ echo JAVA_HOME # 환경변수 JAVA_HOME을 확인

 

 

 

 

 

+ Recent posts