본문 바로가기

4차산업/빅데이터

차세대 빅데이터 처리 기술

데이터분석에 대한 요구가 다양해지므로 해서 새로운 요구에 대응할 수 있는 차세대 빅데이터 처리 기술이 요구된다.


* Google Dremel

Dremel은 빠른 속도로 대규모 데이터를 해석하는 분석처리가 지원되는 도구이다.

맵리듀스가 배치처리에 적합한 반면, Dremel은 짧은 시간내에 분석이 가능하다.

1조행의 데이터를 몇초 이내에 처리할 수 있다.

Big Query에서도 Dremel을 기반으로 사용하고 있다.


* Google Pregel

그래프 알고리즘을 처리하기 위한 도구

구글의 링크 분석에 사용되고 있으며 수백 만 노드와 수 조의 관계에서 얻어지는 데이터를 분석

오픈소스지영에서는 Pregel과 유사한 Apache HAMA 프로젝트 진행중


* Google Percolator

구글 검색엔진에서 검색 인덱스를 작성하기 위해 채택된 기술

2010년 구글에서는 웹문서 인덱스를 기존의 맵리듀스에서 Precolator로 교체

맵 리듀스에 비해 거의 100배 처리성능을 보여준다.


*Apache Mahout

하둡과 연동되는 프로젝트로 기계학습을 기반으로 비슷한 속성의 것을 분ㄹ하는 작업을 손쉽게 처리하는 기능을 가지고 있다.

기계학습이란 아마존 같은 사이트에서 "관심상품추천" 이나 페이스북의 "알수도 있는사람"등을 추천하는 기술이라고 생각하면 쉽다.


* Google Prediction API

Apache Mahout과 같은 기계학습을 클라우드 서비스로 제공하고 있는것

API를 이용해서 기계학습 알고리즘을 활용함.


* CEP(Complex Event Processing)

여러소스에서 전달되는 데이터를 복합적으로 분석하고 판단하여 신속하게 의사 결정을 하기 위한 빅데이터 고속 처리 기술

주로 주식시장의 거래처리, 신용카드의 부정이용확인, 정보 시스템의 가동 상황확인 등에 사용

IBM이나 오라클의 주력 상품

 

* 기타

DWH(Data Ware House): 대용량 데이터를 저장하여 활용

MDM(Master Data Management): 데이터를 분석 가능한 상태로 만든다.

PPDM(Privacy Preserving Data Mining): 데이터 보안을 강화해 익명성과 비밀 계산이 가능한 기술


* 하둡 더 알아보기 링크 모음
http://blog.acronym.co.kr/370

<링크내용>
맵리듀스의 개념
하둡 설치부터 테스트 까지
하둡 프로그래밍을 위한 이클립스 플러그인 설정
하둡 로컬에서 실행
하둡 관련기술 - 주키퍼, 피그, HBase
Hive와 Pig
R 설치와 활용
하둡이외의 빅데이터 분석기술
CEP 오픈소스 에스퍼
링크드인의 아파치 카프카

작성자: 심탁길 


작성자: 심탁길 


알짜배기 시각화 기술 20선