170213~ 빅데이터 플랫폼의 이해.zip

유의사항 안내를 시작으로 강의를 시작하였습니다.

<강의자료는 추후에 추가하였습니다.>

====================================    1    ====================================


( 19 : 00 ~ 19 : 49 )


총 5일간 1일 3시간씩 진행되는 강의입니다. 


Wifi 

ID : 6classroom

PW: kosta1528


송인권 강사님


강사님께서는 각 수강생에게 가볍고 즐겁게 수강목적을 일일히 확인하셨습니다. 강사님 이야기로는 굉장한 실력자들이나 초급수준의 강의는 필요 없을 것 같은 분들도 계신다고 하셨습니다. 플랫폼에 대한 이해나 각종 세부 학습 목적을 확인하셨습니다. 


강사님께서는 보수적인, 신기술에 회의적인 개발자라고 하셨습니다. 10년여 전에 이 근처에서 개발을 하였습니다. 수강생들의 회사때문에 살짝 부담이 된다고 하셨습니다.


궁금한 것이 있다면 언제든 질문을 해 달라고 하셨습니다. 


1. 빅데이터의 이해

 - 데이터 시대를 맞이라는 우리의 자세


 강사님께서는 20년 개발경력을 갖고 금융계열, 군관련 개발을 해 보셨다고 하였습니다. 요즘은 게임쪽 서버관리와 우체국 물류관리 외주를 담당하고 있다고 하셨습니다. 통계학을 전공하셨다고 하셨습니다. 15시간이라는 강좌시간이 길지 않으므로 포인트를 맛보는 시간이 될 것이라고 하셨습니다.

 프로그램 공부는 아르바이트를 통해서 했다고 하셨습니다. 한국은 시장이 좁아서 여러개 언어를 구사함에도 불구하고 불안할 수 있는것이 현실이라고 하셨습니다. 통계학 전공을 하다보니 수학의 연장선으로 학교가 재미가 없었단...;; 이야기를 하셨습니다.

 무역회사 아르바이트를 하는 중 로터스(엑셀같은 프로그램)를 활용하여 Data를 분석하여 사장에게 보고를 꾸준히 하였고, 처음에는 의아하고 믿지 않았지만 점차 사장님께서도 확인을 하셨습니다. 

 판단을 할 때 통계를 가지고 이야기 하고, 숫자가 나오면 사람들이 꾀나 사실처럼 믿는것을 확인하셨다고 하셨습니다. 인터넷 뒤지면 나오는 빅데이터 내용보다는 경험을 통해서 잘못된 길을 가지 않도록 도움을 주고싶다고 하셨습니다. 통계가 발달을 하면서 숫자에 대해 왜곡을 하는 일들이 많아진다고 하셨습니다. 

 빨강버튼을 누르면 2000명, 파란 버튼을 누르면 1/2이 죽는다고 했을 때 어떤 버튼을 누를지? 라는 질문을 하시면서 일반적으로는 파란버튼, 작은 숫자가 덜 위험하게 느낀다고 하셨습니다. 결국 통계는 거짓말이다?! 라는 이야기를 하셨습니다. 항상 거짓말은 드러난다는 이야기를 하시면서, 왜곡과 은폐를 아는 사람들의... 노력으로 바뀔 수 있다?..

 눈치만을 갖고 판단하거나 숫자의 왜곡을 막기 위해 분산처리를 통해 전체로 조사를 하는 것이라고 하였습니다.

 하둡! 분산처리를 통해서 전체 데이터를 가공하는 프로그램입니다. 

 Big Data의 값어치 ..

 예전에 실력있는 개발자들이 개발을 생업으로 하지 않는 이야기를 하시면서 가볍게 현실을 비꼬셨습니다. 또한 빅데이터의 위력을 통계학자와의 데이터 논의에서도 모수가 훨씬 더 크기때문에 힘이 있다는 이야기를 하셨습니다.

 하둡은 굉장히 창의적이고 처음부터 뛰어난 것은 아니었다고 하셨습니다. RDBMS로도 빅데이터 구현을 할 수 있다고 하셨습니다. 돈이 많다면...

 하지만 하둡은 낮은 비용으로 많은 데이터를 처리할 수 있다고 하셨습니다. 이해를 통해서 합리적인 판단을 할 수 있도록 도와주겠다고 하셨습니다. 

 

 데이터? 정보!

 정보를 가진자가 세상을 지배한다. 첩보정보의 차이?? 과연 무엇일까? 

 

 새로운 페러다임이 있다면 접해보는 것을 추천은 하지만, 개개인 모두 코딩할 수 있는 역량은 충분하다고 하셨습니다. 

 프로그래밍 언어 또한 사고를 이해하고 소통을 하기 위한 것이라고 하셨습니다. 


 두번째 시간에는 하둡에 대한 보다 자세한 설명을 해 주신다고 하셨습니다.



====================================    2    ====================================

( 20 : 00 ~ 20 : 45 )


15시간만에 갑자기 전문가가 되는 것도 아니고, 그렇다고 15시간이 무의미 하다는 것도 아니라는 이야기를 시작으로 2번째 시간의 시작을 하셨습니다. 


빅데이터란 

 데이터 규모에 초점을 맞추면, 기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석, 역량을 넘어서는 데이터 (2011년 5월, 맥킨지)

 

빅데이터 분석의 필요성?

 - SNS의 부상, 디지털기기의 보급으로 엄청난 양의 데이터 증가

 - 쏟아지는 비 정형 데이터

 - 보안사고가 발생하여 해킹흔적 찾기

 - 사용자에게 프로모션 후 사용방식의 변화가 있었는지를 분석

등...


빅데이터의 효용성

 - 개인 서버관리자의 시대에서  솔루션 시대로 진입

 - 기업, 정부, 의료, 교육 분야에서 가치입증

 - 기업 비지니스 성과 개선

 - 글로벌 패션기업 ZARA는 빅데이터 분석을 통해 상품 공급 프로세스를 혁신하고 재고 수량을 최적화 함으로써 매출과 영업이익을 크게 증대시켰음.


빅데이터의 미래

 - 빅데이터는 의료분야에도 확대되고 있음

 - 국가 차원에서도 빅데이터에 대응하기 위한 다양한 정책이 발표되고 있음

 - DNA연구 분야에서도 빅데이터 기술이 활발하게 적용되고 있음

 - 일본 IBM과 도호 대학은 의료정보를 분석해 미래 질명을 예측할 수 있는 시스템을 개발했다고 발표함


빅데이터의 중요성

 - 온라인을 통한 급격한 데이터량 증가

 - 기술 발달로인한 데이터 처리속도 증가

 - 선진국의 1차 노동시간 감소로 유휴시간 증가

 - 휴대폰 발달로 실시간 데이터량 증가


데이터 이동 흐름

 - 데이터 생성 서버 > 데이터 수집 서버 > 데이터 저장 서버

 - 웹 서버 > 수집 서버 > 저장 서버

 - 수집 에이전트 > 수집 데몬 > 하둡 파일 시스템


빅데이터의 위력

 -- 번역시스템 -> IBM VS Google

  - IBM : 수백만건의 의회자료데이터 바탕으로 명사 형용사 동사등, 문법적 접근을 통한 문서 번역 시스템

  - Google : 검색어 기반의 수턴억 건의 데이터를 기반으로 유사 번역 추론 시스템 사용

 -- 바둑 타이젬 VS 알파고

  - 타이젬 : 바둑 기보의 원리로 접근하는 프로그래밍 AI방식

  - 알파고 : 수천억건 실행 데이터를 통한 통계적 추론 방식


빅데이터의 활용

 - 위치 기반 서비스

 - 행동 기반 서비스

 - 반응 기반 서비스

 - 분석 기반 서비스

 - 예측 지원 서비스


 한국의 빅데이터 환경은 분석만 하고, 피드백을 하지 않는 다는 것이 발전을 하지 못하게 하는 장애 요인이라고 하셨습니다. 빅데이터가 시각화 정보와 묶이면 다양한 기술에도 응용을 할 수 있습니다. 


빅데이터의 가장 큰 장점은 싸게 분산처리를 할 수 있다는 것 입니다. 빅데이터, 시뮬레이션, Statisitic을 제외한 모든 것은 RDBMS로도 처리할 수 있습니다.




====================================    3    ====================================

( 20 : 58 ~ 21 : 49 )


DW의 구축 방향

 = 주제 중심적 설계

  - 기능중심으로 설계를 탈피하고 분석가에 의한 분석 주제 중심으로 시스템 설계

 = 통합된 구조

  - 기존의 상이한 다양한 운영시스템에서 데이터를 각자 추출하고, 주제 중심에 맞게 데이터를 변형함으로써 구조와 성격이 다른 데이터를 일관된 데이터로 통합 구축

 = 시간 개염 반영 설계 

  - 데이터에 시간적인 요소를 충분히 추가할 수 있으며 그 시간은 기준으로 데이터의 통합될 구조 설계

 = 비휘발성의 구조적 인프라

  - 


2. 빅데이터의 요소


 3대 요소 (3V)

 - 볼륨( Volume), 다양성(Variety), 속도(Velocity)

 특징

 4대요소 (4V)

 - 진실정, 정확성 (Veracity) / 가치(Value) 중 택1 3V에 추가로 양분

 5대 요소 (5V)

 - 진실정, 정확성 (Veracity) / 가치(Value) 를 3V에 더함.

 

빅데이터의 요소

 - 볼륨 : 데이터량이 많다

 - 다양성 : 조사 범위 다양

 - 속도 : 데이터 모이는 속도가 빠름

 - 진실정 : 가짜 데이터가 많다

 - 가치 : 무가치한 데이터가 많다



Volume의 기준

 = 크기 계량

  - 바이트량

  - 레코드 수

  - 트랜젝션

  - 테이블

  - 파일 수

일반적으로 수십테라바이트 혹은 수십 페타바이트 이상이 빅데이터 범위에 해당


NoSQL도 한때 인기를 누렸지만 데이터 처리에 다소 부족함이 있다고 하셨습니다. 


Velocity 기준

 - Batch 한꺼번에 처리/초,분,시간 수준의 일괄처리

 - Streams - 순차처리

 - Near Time  초단위 수준의 지연

 - Real Time - Streaming과 유사 / Milliseconds 수준의 처리 보장

 - Real Real Time Microseconds 수준의 처리보장


= 빅데이터 처리 속도

= 데이터 생성속도 고속화

= 데이터 수집

= 통계학과 전산학에서 사용하는 데이터 마이닝, 기계학습, 자연어 처리, 패턴인식증이 분석 기법에 해당함


Variety의 기준

정형화 기준

  - 데이터는 정형화 정도 따라 구분

  - 정형, 반정형, 비정형

정형데이터

  - 고정된 필드에 저장되는 데이터를 의미, 일반적인 형식을 갖추고 있음

반정형데이터

  - 고정된 필드로 저장되지는 않지만, XML 아니 HTML같이 메타데이터 스키마등을 포함

비정형데이터

  - 고정된 필드에 저장되지 않는 데이터를 의미함. 사진, 동영상, 메신저로 주고 받은 대화 내용, 스마트폰에 기록되는 위치정보, 통화내용 등이 이에 해당


 빅데이터는 비정형 데이터도 처리 범주에 포함


3. 하둡


하둡이란? 

대용량 데이터를 분산처리할 수 있는 자바기반의 오픈소스 프레임워크

오픈소스 검색 엔진 너치(Nutch)에 적용하기 위해 시작하여 이후 독립 프로젝트화 되었으며 2008년 아파치 최상위 프로젝트가 됨


구성

 - 분산처리 시스템인 맵리듀스를 이용해 데이터를 처리

 - 분산파일 시스쳄인 HDFS(Hadoop Distributed File System)에 데이터를 저장

 하둡이 한국에서 시들해진 이유는 데이터 가공에 투자하여 얻는 성과 대신에 광고에 투자하는 것이 더 효과가 좋은 한국...


 강사님께서 국민은행의 CD기 관리를 했던 이야기를 해 주셨습니다. CD기는 텔러 업무를 처리해 주는 기계로 약 5천만원 정도의 현금이 장입되며, 은행의 CD기 개수를 파악 해 보면 굉장히 많은 돈이 이자를 받지 못하고 현금이 쉬고있게 됩니다. 즉, 현금 수율이 없게되는 것 입니다. 그래서 강사님께서는 CD기에 돈을 넣는 것을 관리 해 보시고, 해당 업무로  Test도 해보셨으며, 성과를 올렸음에도 얻은것 보다 회의감이 들었다고 하셨습니다.

 

 하둡의 장점

 - 저렴한 구축비용

 - 비용대비 빠른 처리

 - 장애를 대비한 특성

 - 오픈소스 (라이센스 비용이 없음)

 - 웹 로그등 비정형 데이터 처리에 유용

 - 분산처리의 장점으로 기기를 나눠 처리하기 때문에 데이터량에 대한 유동적인 대응 가능


 차이

 - RDBMS는 주로 데이터가 저장된 서버 1대에서 데이터를 처리

 - 하둡은 여러 대의 서버에 대이터를 저장

 - 데이터가 저장된 각 서버에서 동시에 데이터를 처리하는 방식


데이터 처리 엔진이라고 볼 수 있다고도 하셨습니다.

 어떻게 활용해서 도움이 될지를 고민하라는 말씀과 함께 오늘의 강의를 마치셨습니다.



 


'강의노트' 카테고리의 다른 글

[DB] Big Data 플랫폼의 이해 3일차  (0) 2017.02.15
[DB] Big Data 플랫폼의 이해 2일차  (0) 2017.02.14
[RESTful] 4일차  (0) 2016.12.01
[RESTful] 3일차  (0) 2016.11.30
[RESTful] 1일차  (0) 2016.11.28

+ Recent posts