데이터 엔지니어링/데이터엔지니어링 도서 리뷰

데이터 엔지니어링/데이터엔지니어링 도서 리뷰

[빅데이터를 지탱하는 기술] Chapter1 빅데이터의 기초지식

빅데이터의 정착 기본 구조 웹 서버 등에서 생성된 데이터는 처음에는 RDB 혹은 NOSQL 등의 텍스트 데이터에 저장. 그 후 모든 데이터가 HADOOP으로 모이고, 거기서 대규모 데이터 처리가 실행된다 HADOOP : 다수의 컴퓨터에서 대량의 데이터 처리 예를 들어 전 세계 웹페이지를 모아서 검색엔진을 만들려면 방대한 데이터를 저장해둘 스토리지와 데이터를 순차적으로 처리할 수 있는 구조가 필요. 그러기 위해선 수백, 수천대 단위의 컴퓨터가 이용되어야하는데, 이것을 관리하는 프레임워크가 Hadoop 하둡은 구글에서 개발된 분산처리 프레임워크인" MapReduce"를 참고하여 제작됨(이후 Aparch Spark가 이를 대체하는 추세) SQL 같은 쿼리언어를 하둡에서 실행하기 위한 소프트웨어로 "Hive(하..

우상욱
'데이터 엔지니어링/데이터엔지니어링 도서 리뷰' 카테고리의 글 목록