오늘은 편의점 생생우동과 주먹밥으로 끼니를 떼우고, 강의를 들으러 왔습니다.

아름다운 금요일 밤이네요... 하하하;;;


====================================    1    ====================================


( 19 : 00 ~ 19 : 49 )


오늘은 빅데이터 배우는 마지막날이라는 얘기를 하시며, 오늘은 무엇을 하면 좋겠는지 질문을 하셨습니다. 

5일만에 선수과정 없이 개요만 다뤄달라는 강의 요청을 받고 생각했을 때 보다 훨씬 시간이 빠듯하다는 이야기를 하셨습니다. 그리고 오늘은 R을 통해서 Data를 분석하고, 그 Data를 통해 가치를 창출하는 일을 해 보도록 하자고 하셨습니다. 

어제 하던것을 이어 서버 3개를 붙여보자고 하셨습니다. 

오늘은 마지막날이므로, 실무에서 마주할 수 있는 것들에 대해서도 알려주겠다고 하셨습니다.

게스트에 크롬을 설치하는 이유는 한글지원과, 지역인식을 시키는 것 때문이라고 하셨습니다.

우선 자바의 버전을 확인하였습니다. 



그리고는 IP확인을 해 보았습니다.  명령은 아래와 같습니다.


확인을 한 후 Master를 복사하여 슬래이브인 Sub01, Sub02, Sub03을 만들 예정입니다. 복사하는 과정은 아래와 같습니다.

 먼저 마스터를 선택한 후 오른쪽 클릭을 하여 나타나는 팝업메뉴에서 복제를 선택합니다.


이름은 sub01~03까지로 지정을 하겠습니다.  아래에 나오는 화면과 같이 이름을 선택할 때, 모든 네트워크 카드의 MAC주소 초기화에 체크를 꼭 해주시기 바랍니다.


복제 방식을 선택하는 창이 나오면 기본으로 선택이 되어있는 완전한 복제를 하시면 됩니다.


복제되는 가운데 시간이 약간 소요됩니다. 잠시 아래와 같은 화면을 보시면 기다려주시면 되겠습니다.


위의 과정을 거쳐 sub03, sub03도 복제를 해 줍니다.


그리고 이제는 마스터의 네트워크 설정을 진행 해 보겠습니다. 저의 경우는 자동으로 잡히지 않아서 조금 애를 먹었습니다.

마스터에서 오른쪽 클릭 후 뜨는 팝업메뉴의 가장 위에있는 설정(S)을 선택해주시기 바랍니다.


 설정 창이 열리면 왼쪽의 리스트 메뉴에서 네트워크를 고르고, 어뎁터 1을 아래와 같이 설정을 해 줍니다.


어뎁터 2에는 호스트 전용 어뎁터를 하나 선택해야 하는데 현재 저의 설정에는 없어서 호스트 전용 네트워크부터 설정을 하였습니다.


먼저 VM의 환경설정으로 갑니다.



그러면 아래와 같이 창이 하나 열리고 네트워크를 선택합니다. 그러면 Tab이 2개 보이고 그 중, 호스트 전용 네트워크를 선택하여 아래 그림에 보이는 녹색 아이콘 버튼을 누릅니다. 새로 호스트전용 네트워크를 생성(추가) 하는 버튼입니다. 


추가를 하시면 아래의 그림처럼 칩 이미지 하나와 상태경과표시가 나오게 됩니다.


추가를 하셨다면 이제 슬래이브인 sub01~sub03의 네트워크 설정을 해 줍니다. 위에서 했던 것 처럼 각 VM 이미지를 선택한 후 오른쪽 클릭을 해서 설정으로 옵니다. 설정 창에서 마스터 설정했던 방식과 같이 네트워크를 선택하시고, 어댑터 1에 호스트 전용 어댑터를, 그리고 그 이름을 아까 생성한 네트워크 어댑터의 이름을 선택해줍니다.


네트워크 구성이 완료되면 4VM모두 시작을 해 줍니다. 엄청나게 부하가 걸리네요.


그리고 각 VM마다 리눅스 상에서 네트워크 연결을 해 줍니다. 우측 상단의 아랫방향 화살표를 눌러줍니다. 그러면 아래의 이미지 처럼 팝업매뉴가 나타나고 지금 공구 모양의 파란 동그란 아이콘의 버튼을 클릭합니다.


리눅스의 설정창이 열리면, 전원을 선택해줍니다.


그 후 아래 이미자와 같이 빈 화면 옵션을 안함으로 바꾸어 줍니다. 리눅스가 절전모드와 같이 꺼지지 않도록 해 주는 기능입니다.


네트워크를 이제 리눅스 내부에서 마스터와 슬레이브의 네트워크 연결을 위한 작업을 하겠습니다. 먼저 마스터의 환경설정으로 갑니다. 아래와 같이 파일메뉴의 의 VM 환경설정입니다.


먼저 우측 상단의 화살표 아래 버튼을 눌러 팝업메뉴가 나오면 이더넷에 연결을 해 줍니다.

그리고 호스트전용 네트워크의 DHCP정보를 확인을 해 줍니다. 저의 경우는 해당 작업이 수동으로 생성을 해서인지 일일이 값을 넣어주었습니다.


일일이 넣은 값은 강사님의 값을 가지고 넣었는데 저는 저의 설정에 맞게 수정을 했어야 할 것 같습니다. 값을 적절하게 넣어주준 후 서버 사용에 체크를 꼭 하고 OK를 누릅니다.


슬레이브는 각각 마스터에서 했던 것 처럼 리눅스 상에서 오른쪽 상단의 아랫방향 화살표 설정 팝업에서 인터넷 연결만 해주면 됩니다.








01~03은 터미널만 확인하고 마스터에서 일은 다 한다고 하셨습니다.




각 네트워크 설정을 모두 마치고 이름별 IP를 txt문서에 기록을 해 둡니다.


====================================    2 ~ 3   ====================================

딱히 쉬는시간 없이 쉴 시간즘 해서 30여분 강사님 이야기를 해 주셨습니다.

( 20 : 07 ~ 21 : 57 )





중간에 실습 과정에서 속도가 안맞아 흐름을 놓쳐서 실습을 더 따라갈 수가 없었습니다. 


그 후 열쇠를 만들어 준다고 하셨습니다.  CDH설치.pdf를 보고 따라서 해 보라고 하셨습니다. 저 이외에도 많은 분들이 실습을 따라가기를 포기하셨습니다. 


해당 문서의 2페이지까지 하면 클라우데라 설치 준비가 끝난거라고 하셨습니다. 방화벽이 총 3개가 있다고 하셨습니다. 1번이 암호, 2번이 IPTABLE 3번이 Selinux입니다.


swappiness  설정은 클라우데라 설치 후 문제가 있을 때 진행하라고 하셨습니다.


클라우데라 설치는 마스터에서 su명령을 통해 root계정으로 하라고 하셨습니다.  클라우데라 설치는 지난주까지만 해도 web에 로그인을 할 필요가 없었는데 이제 로그인을 해야 설치를 할 수 있게 바뀐듯 합니다.




 9시쯤 쉬는시간 없이 한 30분 정도 강사님께서 Data 가공과 분석을 통해 있었던 일 중에 하나를 이야기 해 주셨습니다. 이야기가 제법 길었지만 요약을 하면 이렇습니다. 은행에서 일을 할 때 ATM(CD기)기계에서 손실이 발생하는 것을 분석을 하였습니다. ATM기계가 손실이 발생 하는것이 기계가 카운팅을 잘 못 하는것이라면 남는날도 있고 모자라는 날도 있을 텐데 늘 모자랐다고 하셨습니다. 그래서 텔러들이 ATM기에 장입을 해야하는 돈을 잘 못 주는지 분석을 하기 위해서 텔러분과 현금운송 직원을 연결을 지어 매번 같은 분과 작업을 하도록 하고 결과를 분석했다고 하셨습니다. 그러면 어느 텔러가 돈을 덜 준다면 어느 기기에서 문제가 났어야 하지만 이렇다할 뚜렷한 점 없이 예전처럼 계속 손실이 발생을 하였습니다. 그래서 현금 장입 시 문제가 있나 해서 ATM기와 현금운송 팀을 매칭을 시켜 매번 같은 팀이 같은 기기들에 돈을 넣도록 하자 특정 기기들에서 유독 손실이 발생하는 것을 확인할 수 있었다고 하셨습니다. 그래서 기기가 잘 못 세는것이 아닌지 확인을 또 하기위해 손실이 났던 운송 팀의 루트를 다른 기기들로 바꾸자 바꾼 기기들에서만 또 빨간불(손실)이 떠서 확신을 하고, 손실을 발생시켰던 현금운송 직원들에게 해당 분석 데이터를 회의실에서 발표를 했다고 하셨습니다. 발표 분위기는 안좋았고 그것이 업계의 관행이었다는 것도 알고있었고 다시 들었지만 그 다음부터 휴먼손실이 눈에띄게 줄었다고 하셨습니다.

 문제는 그 다음이었습니다. 휴먼손실이 줄어든게 그동안 계산을 잘 못 해서 그런것이 아닌지 은행에서 감사팀이 감사를 나왔다고 하셨고, 그 후 감사를 받던 중 홧김에 현금운송 직원 분석을 한 Data를 감사팀에 다른 같이 일한분이 넘겼다고 하셨답니다. 그 후 현금운송 직원분중 한분과 식사를 하시면서 인간적인 이야기를 하셨고, 회사에는 피바람이 불었다고 하셨습니다. 손해배상 청구에 관한 경고문이 붙은 퇴직권고를 하였고 해당 공백 인원에 대해 계속 보충을 하였지만 업계의 관행은 이어져 계속 인원 교체가 있었으며 그 과정에서 운송직원들의 능률이 60% 가량으로 떨어져 손실이 눈덩이처럼 불었다고 하셨습니다. 그 때 무슨일을 한것인가 하는 회의감이 들어서 회사에서도 사람을 타지 않는 일을 선호하게 되셨다는 이야기를 해 주셨습니다.

[세부적인 이야기가 훨씬 더 많았는데 많이 빠진부분이 있네요,,,]


 이야기를 마치시고 설치 확인 및 R에 대한 PT를 가지고 수업을 이어하셨습니다.


CRAN의 것보다 R Studio를 사용하는 것을 더 추천한다고 하셨습니다. 한국 사이트 위주로 받으시면 5분이면 설치해서 보실 수 있다고 하셨습니다. 


 R설치는 그냥 받아서 다른 프로그램처럼 다음다음만 누르면 된다고 하셨습니다.

 파일기반으로 처리를 하기때문에 회사에서 분석을 하는데 쓰고싶다면 R Hive를 쓰라고 하셨습니다. 하지만 그것은 Hive를 써야한다고 하셨습니다. 어떤것을 사용해야 할지는 회사마다 환경이 천차만별이라 추천을 하기가 어렵다고 하셨습니다. 


 R console에 help()를 치면 API등의 기술문서를 확인할 수 있으며, 파이썬처럼 사용한다고 하셨습니다. R을 공부할 때 가장 기본으로 배우는 예제인 R Project를 보여준다고 하셨습니다. 

http://rfriend.tistory.com/ 에서 예제를 확인하셨습니다. R관련된 블로그인 듯 합니다.




15시간이라는 짧은 시간동안 빅데이터 개요를 훑어보았다고 하셨고, Data가지고 좋은일 많이 하라는 말씀을 마지막으로 하셨습니다.

+ Recent posts