OS/Linux

[Linux] 우분투에서 하둡(hadoop) 설치하기

코딩팩토리
2017. 11. 6. 19:07

리눅스 우분투상에서 하둡(hadoop)을 설치해보도록 하겠습니다. 하둡(hadoop)은 빅데이터 환경을 구축하기 위해서 필요한 필수 프로그램입니다. 이번 포스팅에서는 우분투에서 하둡의 설치방법에 대해서 알아보도록 하겠습니다.

빅데이터는 무엇인가?

디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말합니다. 제4차 산업혁명시대를 맞이하여 그 중요성이 점점 커지고 있습니다.

하둡이란 무엇인가?

여러 개의 저렴한 컴퓨터를 마치 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술이며 하둡은 수천 대의 분산된 x86 장비에 대용량 파일을 저장할 수 있는 기능을 제공하는 분산 파일 시스템과, 저장된 파일 데이터를 분산된 서버의 CPU와 메모리 자원을 이용해 쉽고 빠르게 분석할 수 있는 컴퓨팅 플랫폼인 맵리듀스로 구성되어 있습니다.

우분투에서 하둡(hadoop) 설치하기

먼저 하둡을 설치하기 위한 환경부터 구축하겠습니다.

sudo apt-get update

sudo apt-get upgrade

sudo add-apt-repository ppa:webupd8team/java

Enter

다시 sudo apt-get update

sudo apt-get install oracle-java8-installer

확인

예

설치가 될 겁니다.

다시 sudo apt-get upgrade

java -version 을 입력해 JDK가 제대로 설치되었는지 확인

sudo addgroup hadoop

sudo adduser --ingroup hadoop hduser 와 비밀번호 user정보를 차례로 입력한 뒤 Y

sudo gedit /etc/sudoers를 입력해서

이런 창을 띄워주세요

빨간색 박스 밑에

이런 식으로 입력 후 저장 후 다시 터미널로 돌아감

apt-get install openssh-server

sudo su hduser -> cd -> ssh-keygen -t rsa -P "" -> Enter

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

sudo gedit /etc/sysctl.conf

비밀번호를 입력하셔서

sysctl.conf 열기

가장 밑에 다음과 같은 문구 입력 후 저장

sudo reboot을 입력해서 재부팅을 해줍니다.

다시 로그인해서 바탕화면으로 접속해준 뒤 본격적으로 하둡 설치를 해주도록 하겠습니다.

하둡 설치경로으로 접속하여

중간 부분에 Download Hadoop 페이지에서 releases를 클릭해줍니다.

그런 뒤 빨간색 박스 안의 mirror site를 클릭하고

사이트 상단의 빨간색 박스 안의 URL을 클릭해주세요

자신이 원하는 위 그림에서 보이는 파일을 차례로 클릭합니다.

파일 저장

받은 파일을 바탕화면에 복사한 뒤

압축을 해제하겠습니다.

그런 뒤 다시 터미널로 들어가서

hduser로 접속해줍니다.

sudo su hduser / 비밀번호 / cd

sudo mv '/home/ubuntu/바탕화면/hadoop-2.7.4' /usr/local/hadoop/ 저는 이렇게 이동시킬 거지만 이건 사람들마다 조금씩 다르겠죠??

sudo chown hduser:hadoop -R /usr/local/hadoop

sudo mkdir -p /usr/local/hadoop_tmp/hdfs/namenode

sudo mkdir -p /usr/local/hadoop_tmp/hdfs/datanode

sudo chown hduser:hadoop -R /usr/local/hadoop_tmp/

sudo gedit .bashrc

*.bashrc의 가장 밑부분에

다음과 같은 문구 추가 후 저장

cd /usr/local/hadoop/etc/hadoop

sudo gedit hadoop-env.sh /비밀번호

표시해 둔 곳에 export JAVA_HOME='/usr/lib/jvm/java-8-oracle' 입력 후 저장

sudo gedit core-site.xml

편집

sudo gedit hdfs-site.xml

문구 추가 후 저장

(여기서 hadoop_store가 아니고 hadoop_temp입니다.) -kim-

sudo gedit yarn-site.xml

다음 문구 추가 후 저장

(여기서 <name>yarn.nodemanager.aux-servieces</name> 가 아니고

<name>yarn.nodemanager.aux-services</name> 입니다.

cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

sudo gedit mapred-site.xml

가장 밑에 다음과 같은 문구 추가 후 저장

source ~/.bashrc

cd /usr/local/hadoop_tmp/hdfs

hadoop namenode -format

start-dfs.sh

이후에 yes/no 질문이 나오면 yes를 입력해주시면 됩니다.

start-yarn.sh

jps

이런 식으로 나오면 성공입니다.

참고 유튜브 영상 링크 바로가기

참고한 유튜브 영상이니 참고하실 분 참고하시기 바랍니다.

저작자표시 (새창열림)

'OS > Linux' 카테고리의 다른 글

[Linux] 리눅스란 무엇인가? (센토스 VS 우분투) (7)	2019.02.18
[Linux] 우분투에서 이클립스 톰캣 연동 (0)	2017.11.08
[Linux] 우분투에서 오라클 설치하기 (7)	2017.11.01
[Linux] 우분투에서 아파치톰캣 설치하기 (2)	2017.11.01

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

빅데이터는 무엇인가?

하둡이란 무엇인가?

우분투에서 하둡(hadoop) 설치하기

'OS > Linux' 카테고리의 다른 글

티스토리툴바