[DB] Big Data 플랫폼의 이해 4일차

2017. 2. 16. 18:48

간단하게 김밥과 주먹밥으로 끼니를 떼우고, 강의를 들으러 왔습니다.

==================================== 1 ====================================

( 19 : 00 ~ 20 : 14 )

하둡과 DB연동을 하는 것을 배운다고 하셨습니다. 하둡과 DB연동을 하려면 두가지 모두를 잘 알고있어야 하며 또한 JAVA도 잘 알고있어야 한다고 하셨습니다.

4일차 자료.zip

강의 자료를 받았습니다.

CDH설치 관련된 파일과 데이터베이스 강의자료, 그리고 몽고 하둡커넥터 관련 예제도 있다고 하셨습니다.

어제 실습이 잘 되지 않았던 이유는 커맨드창을 관리자 권한으로 수행하지 않았기 때문이라고 하셨습니다. Windows7을 사용하시면 아래와 같이 관리자권한으로 커맨드창을 수행해주시기 바랍니다.

C:\hadoop-2.6.0\data\dfs\datanode와 C:\hadoop-2.6.0\data\dfs\namenode안의 모든 파일을 삭제해줍니다.

0.파일 포맷

.\etc\hadoop\hadoop-env.cmd

.\bin\hdfs namenode -format

후

1.DFS 시작-

http://localhost:50070/

로 접속 확인

.\sbin\start-dfs.cmd

2.yarn 시작

Resource Manager: http://localhost:8088

HDFS NameNode web interface: http://localhost:8042

.\sbin\start-yarn.cmd

그리고 강의자료 데이터베이스에 대해 이론수업을 진행하였습니다. 잠시 한국 프로그래머에 대해 이야기를 하시면서 프로그래머로써 더 성장하고 싶으면 이슈가 되는 기술이 있을 때 해당 기술을 관망하고 접해보라고 하셨습니다.

NoSQL의 핵심은 인덱싱이라고 하셨습니다. 그 외의 성능을 기대하기에는 무리가 있다고 하셨습니다.

MongoDB는 메모리사용이 많고 파일기반이라 비교적 안정성도 확보를 하고 있다고 하셨고, 파일 기반이라 샤딩도 쉽다고 하셨습니다. 강의자료에 자세하게 설명이 되어있습니다.

==================================== 2 ====================================

( 20 : 30 ~ 21: 00 )

4. 데이터 입력

.\bin\hdfs dfs -put myfile.txt /

.\bin\hdfs dfs -mkdir /input

.\bin\hdfs dfs -mkdir /output

.\bin\hdfs dfs -put myfile.txt /input

.\bin\hdfs dfs -rm myfile.txt /

.\bin\hdfs dfs -cat /input/myfile.txt

.\bin\yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /input /output

위의 명령이 계속 정상적으로 수행이 되지를 않습니다.

분산처리 설정을 할줄 아는것이 중요하다고 하셨습니다.

그리고 vm으로 작업을 한다고 하셨습니다. 1개의 마스터에 3개의 슬래이브로 구성을 한다고 하셨습니다.

CDH설치.pdf를 보고 환경구축을 해보자고 하셨습니다. 또한 아까 wordcount 실습이 안되면 자료를 업로드 해 준다고 하셨습니다.

그리고 게스트에 크롬을 설치합니다. 너무 느려서 설치가 정상적으로 되지는 않고 레드헷 계열의 .rpm으로 받아야 한다고 하셨습니다.

==================================== 3 ====================================

( 21 : 08 ~ 21 : 47 )

강사님께서 우선 크롬 다운로드 마져도 오래 걸리자 우선 이론적으로 강사님 환경으로 확인을 해 보자고 하셨고, 지금 하는 내용으 잘 따라오지 못하는 경우가 많지만 중요한 과정이라고 하셨습니다.

마스터 1

슬레이브 1 2 3 4

파일기반이다 보니 파일을 주고받는 동안 통계적으로 1000만건 중 600건이 유실가능하다고 하였습니다.

하둡을 쓸때는 root가 아니라 Hadoop 계정을 만들어서 사용한다고 하셨습니다. 또한 슬레이브는 보통 인터넷에 연결을 하지 않는 방식으로 네트워크를 구축을 해서 보안을 유지한다고 하셨습니다. 슬레이브는 호스트기반의 어뎁터를 하용하여 통신을 한다고 하셨습니다.

호스트 기반의 네트워크.?

일단 슬레이브는 모두 ID/PW를 hadoop으로 설정을 한다고 하셨고, 잦은 통신을 위해 ssh로 접근을 한다고 하셨습니다. https처럼 보안키를 활용하여 통신을 하기 위해서 마스터에서 RSA키를 하나 만들고 그 키를 복제하여 슬레이브에 키를 복사하여 준다고 하셨습니다. pscp라고 병렬보안 copy라는 기술을 활용하여 설치를 빨리 해보도록 한다고 하셨습니다.

클라우데라 배포판은 설치를 쉽게 해주는 유료 서비스 개념으로 설명을 해 주셨습니다.

가상환경에서는 복사만 쉽게 하면 되지만 실제 컴퓨터는 하드복사를 하고 어뎁터 설정을 해야한다고 하셨습니다.

CDH설치.pdf를 다시 한번 쭉 보시면서 과정을 간단하게 설명 해 주셨습니다. 6페이지 계정은 admin/admin

리눅스 게스트 환경으로 다시 돌아갔는데 크롬을 다시 받으니 금방 받아졌습니다.

크롬 설치도 생각보다 굉장히 오래 걸렸습니다. 설치 시에는 아래의 제거 버튼 대신에 설치중... 이라는 회색의 비활성화 된 버튼으로 설치중임을 확인할 수 있었습니다. 설치가 다 되면 아래 빨갛게 제거라고 바뀝니다. 누르지는 마세요 계속 크롬을 쓰고싶으시다면...

크롬 브라우저는 왼쪽상단의 프로그램 -> 인터넷 -> Google Chrome 을 눌러주시면 됩니다.

마지막으로 리눅스 명령어를 몇가지 써 보자고 하셨습니다.

pwd : 지금 위치를 보여주는 명령입니다.

whoami : 말 그대로 내가 누구인지를 묻는 명령입니다.

su : super user로 로그인을 하기 위한 명령입니다. pw는 hadoop 또는 12345678로 리눅스 계정의 비밀번호 입니다.

ls는 지금 경로의 모든 파일을 보는 명령이고 -l 옵션은 자세하게 보기, -a옵션은 모두보기(숨긴파일도 보기) 기능을 하는 명령옵션입니다.

이상으로 마치며 내일 혹시 크롬이 설치 안된 분들은 수업 전에 보고 이후에 진행하자고 하셨습니다.

오늘도 고생하셨습니다.

저작자표시 변경금지 (새창열림)

'강의노트' 카테고리의 다른 글

[파이썬] 파이썬 기초 1일차 [오전] (0)	2017.03.04
[DB] Big Data 플랫폼의 이해5일차 (0)	2017.02.17
[DB] Big Data 플랫폼의 이해 3일차 (0)	2017.02.15
[DB] Big Data 플랫폼의 이해 2일차 (0)	2017.02.14
[DB] Big Data 플랫폼의 이해 1일차 (0)	2017.02.13

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

새로쓰는 개발이야기

[DB] Big Data 플랫폼의 이해 4일차

'강의노트' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역