[Linux] 우분투에서 하둡(hadoop) 설치하기
- OS/Linux
- 2017. 11. 6.
리눅스 우분투상에서 하둡(hadoop)을 설치해보도록 하겠습니다. 하둡(hadoop)은 빅데이터 환경을 구축하기 위해서 필요한 필수 프로그램입니다. 이번 포스팅에서는 우분투에서 하둡의 설치방법에 대해서 알아보도록 하겠습니다.
빅데이터는 무엇인가?
디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말합니다. 제4차 산업혁명시대를 맞이하여 그 중요성이 점점 커지고 있습니다.
하둡이란 무엇인가?
여러 개의 저렴한 컴퓨터를 마치 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술이며 하둡은 수천 대의 분산된 x86 장비에 대용량 파일을 저장할 수 있는 기능을 제공하는 분산 파일 시스템과, 저장된 파일 데이터를 분산된 서버의 CPU와 메모리 자원을 이용해 쉽고 빠르게 분석할 수 있는 컴퓨팅 플랫폼인 맵리듀스로 구성되어 있습니다.
우분투에서 하둡(hadoop) 설치하기
먼저 하둡을 설치하기 위한 환경부터 구축하겠습니다.
sudo apt-get update
sudo apt-get upgrade
sudo add-apt-repository ppa:webupd8team/java
Enter
다시 sudo apt-get update
sudo apt-get install oracle-java8-installer
확인
예
설치가 될 겁니다.
다시 sudo apt-get upgrade
java -version 을 입력해 JDK가 제대로 설치되었는지 확인
sudo addgroup hadoop
sudo adduser --ingroup hadoop hduser 와 비밀번호 user정보를 차례로 입력한 뒤 Y
sudo gedit /etc/sudoers를 입력해서
이런 창을 띄워주세요
빨간색 박스 밑에
이런 식으로 입력 후 저장 후 다시 터미널로 돌아감
apt-get install openssh-server
sudo su hduser -> cd -> ssh-keygen -t rsa -P "" -> Enter
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
sudo gedit /etc/sysctl.conf
비밀번호를 입력하셔서
sysctl.conf 열기
가장 밑에 다음과 같은 문구 입력 후 저장
sudo reboot을 입력해서 재부팅을 해줍니다.
다시 로그인해서 바탕화면으로 접속해준 뒤 본격적으로 하둡 설치를 해주도록 하겠습니다.
하둡 설치경로으로 접속하여
중간 부분에 Download Hadoop 페이지에서 releases를 클릭해줍니다.
그런 뒤 빨간색 박스 안의 mirror site를 클릭하고
사이트 상단의 빨간색 박스 안의 URL을 클릭해주세요
자신이 원하는 위 그림에서 보이는 파일을 차례로 클릭합니다.
파일 저장
받은 파일을 바탕화면에 복사한 뒤
압축을 해제하겠습니다.
그런 뒤 다시 터미널로 들어가서
hduser로 접속해줍니다.
sudo su hduser / 비밀번호 / cd
sudo mv '/home/ubuntu/바탕화면/hadoop-2.7.4' /usr/local/hadoop/ 저는 이렇게 이동시킬 거지만 이건 사람들마다 조금씩 다르겠죠??
sudo chown hduser:hadoop -R /usr/local/hadoop
sudo mkdir -p /usr/local/hadoop_tmp/hdfs/namenode
sudo mkdir -p /usr/local/hadoop_tmp/hdfs/datanode
sudo chown hduser:hadoop -R /usr/local/hadoop_tmp/
sudo gedit .bashrc
*.bashrc의 가장 밑부분에
다음과 같은 문구 추가 후 저장
cd /usr/local/hadoop/etc/hadoop
sudo gedit hadoop-env.sh /비밀번호
표시해 둔 곳에 export JAVA_HOME='/usr/lib/jvm/java-8-oracle' 입력 후 저장
sudo gedit core-site.xml
편집
sudo gedit hdfs-site.xml
문구 추가 후 저장
(여기서 hadoop_store가 아니고 hadoop_temp입니다.) -kim-
sudo gedit yarn-site.xml
다음 문구 추가 후 저장
(여기서 <name>yarn.nodemanager.aux-servieces</name> 가 아니고
<name>yarn.nodemanager.aux-services</name> 입니다.
cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
sudo gedit mapred-site.xml
가장 밑에 다음과 같은 문구 추가 후 저장
cd
source ~/.bashrc
cd /usr/local/hadoop_tmp/hdfs
hadoop namenode -format
start-dfs.sh
이후에 yes/no 질문이 나오면 yes를 입력해주시면 됩니다.
start-yarn.sh
jps
이런 식으로 나오면 성공입니다.
참고한 유튜브 영상이니 참고하실 분 참고하시기 바랍니다.
'OS > Linux' 카테고리의 다른 글
[Linux] 리눅스란 무엇인가? (센토스 VS 우분투) (7) | 2019.02.18 |
---|---|
[Linux] 우분투에서 이클립스 톰캣 연동 (0) | 2017.11.08 |
[Linux] 우분투에서 오라클 설치하기 (7) | 2017.11.01 |
[Linux] 우분투에서 아파치톰캣 설치하기 (2) | 2017.11.01 |