[Linux] 우분투에서 하둡(hadoop) 설치하기

하둡

 

리눅스 우분투상에서 하둡(hadoop)을 설치해보도록 하겠습니다. 하둡(hadoop)은 빅데이터 환경을 구축하기 위해서 필요한 필수 프로그램입니다. 이번 포스팅에서는 우분투에서 하둡의 설치방법에 대해서 알아보도록 하겠습니다. 

 

     

    빅데이터는 무엇인가? 

    디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말합니다. 제4차 산업혁명시대를 맞이하여 그 중요성이 점점 커지고 있습니다.

     

    하둡이란 무엇인가? 

    여러 개의 저렴한 컴퓨터를 마치 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술이며 하둡은 수천 대의 분산된 x86 장비에 대용량 파일을 저장할 수 있는 기능을 제공하는 분산 파일 시스템과, 저장된 파일 데이터를 분산된 서버의 CPU와 메모리 자원을 이용해 쉽고 빠르게 분석할 수 있는 컴퓨팅 플랫폼인 맵리듀스로 구성되어 있습니다.

     

    우분투에서 하둡(hadoop) 설치하기

    먼저 하둡을 설치하기 위한 환경부터 구축하겠습니다.

     

    하둡

    sudo apt-get update

     

    하둡

    sudo apt-get upgrade

     

    하둡

    sudo add-apt-repository ppa:webupd8team/java

     

    하둡

    Enter

     

    하둡

    다시 sudo apt-get update

     

    하둡

    sudo apt-get install oracle-java8-installer

     

    하둡

    확인

     

    하둡

     

    하둡

    설치가 될 겁니다.

     

    하둡

    다시 sudo apt-get upgrade

     

    하둡

    java -version 을 입력해 JDK가 제대로 설치되었는지 확인

     

    하둡

    sudo addgroup hadoop

     

    하둡

    sudo adduser --ingroup hadoop hduser 와 비밀번호 user정보를 차례로 입력한 뒤 Y

     

    하둡

    sudo gedit /etc/sudoers를 입력해서

     

    하둡

    이런 창을 띄워주세요

    빨간색 박스 밑에

     

    하둡

    이런 식으로 입력 후 저장 후 다시 터미널로 돌아감

     

    하둡

    apt-get install openssh-server

     

    하둡

    sudo su hduser -> cd -> ssh-keygen -t rsa -P "" -> Enter

     

    하둡

    cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

     

    하둡

    sudo gedit /etc/sysctl.conf

    비밀번호를 입력하셔서

     

    하둡

    sysctl.conf 열기

     

    하둡

    가장 밑에 다음과 같은 문구 입력 후 저장

     

    하둡

    sudo reboot을 입력해서 재부팅을 해줍니다.

     

    하둡

    다시 로그인해서 바탕화면으로 접속해준 뒤 본격적으로 하둡 설치를 해주도록 하겠습니다.

    하둡 설치경로으로 접속하여

     

    하둡

    중간 부분에 Download Hadoop 페이지에서 releases를 클릭해줍니다.

     

    하둡

    그런 뒤 빨간색 박스 안의 mirror site를 클릭하고

     

    하둡

    사이트 상단의 빨간색 박스 안의 URL을 클릭해주세요

     

    하둡

    자신이 원하는 위 그림에서 보이는 파일을 차례로 클릭합니다.

     

    하둡

    파일 저장

     

    하둡

    받은 파일을 바탕화면에 복사한 뒤

     

    하둡

    압축을 해제하겠습니다.

    그런 뒤 다시 터미널로 들어가서

     

    하둡

    hduser로 접속해줍니다.

    sudo su hduser / 비밀번호 / cd

     

    하둡

    sudo mv '/home/ubuntu/바탕화면/hadoop-2.7.4' /usr/local/hadoop/ 저는 이렇게 이동시킬 거지만 이건 사람들마다 조금씩 다르겠죠??

     

    하둡

    sudo chown hduser:hadoop -R /usr/local/hadoop

     

    하둡

    sudo mkdir -p /usr/local/hadoop_tmp/hdfs/namenode

    sudo mkdir -p /usr/local/hadoop_tmp/hdfs/datanode

     

    하둡

    sudo chown hduser:hadoop -R /usr/local/hadoop_tmp/

     

    하둡

    sudo gedit .bashrc

     

    *.bashrc의 가장 밑부분에

    하둡

    다음과 같은 문구 추가 후 저장

     

    하둡

    cd /usr/local/hadoop/etc/hadoop

    sudo gedit hadoop-env.sh /비밀번호

     

    하둡

    표시해 둔 곳에 export JAVA_HOME='/usr/lib/jvm/java-8-oracle' 입력 후 저장

     

    하둡

    sudo gedit core-site.xml

     

    하둡

    편집

     

    하둡

    sudo gedit hdfs-site.xml

     

    하둡

    문구 추가 후 저장

    (여기서 hadoop_store가 아니고 hadoop_temp입니다.) -kim-

     

    하둡

    sudo gedit yarn-site.xml

     

    하둡

    다음 문구 추가 후 저장

    (여기서 <name>yarn.nodemanager.aux-servieces</name> 가 아니고

    <name>yarn.nodemanager.aux-services</name> 입니다.

     

    하둡

    cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

     

    하둡

    sudo gedit mapred-site.xml

     

    하둡

    가장 밑에 다음과 같은 문구 추가 후 저장

     

    하둡

    cd

     

    하둡

    source ~/.bashrc

    cd /usr/local/hadoop_tmp/hdfs

     

    하둡

    hadoop namenode -format

     

    하둡

    start-dfs.sh 

    이후에 yes/no 질문이 나오면 yes를 입력해주시면 됩니다.

     

    하둡

    start-yarn.sh

     

    하둡

    jps

     

    하둡

    이런 식으로 나오면 성공입니다.

     

    참고 유튜브 영상 링크 바로가기

    참고한 유튜브 영상이니 참고하실 분 참고하시기 바랍니다.

    댓글

    Designed by JB FACTORY