hive

데이터 엔지니어링/Spark

2. 빅데이터 처리와 Spark 소개(맵리듀스 프로그래밍)

1. 맵리듀스 프로그래밍의 특징 데이터 셋은 Key, Value의 집합이며 변경 불가(immutable) 데이터 조작은 map과 reduce 두 개의 오퍼레이션으로만 가능 이 두 오퍼레이션은 항상 하나의 쌍으로 연속으로 실행됨 이 두 오퍼레이션의 코드를 개발자가 채워야함 나머지는 시스템이 다 알아서 함 맵리듀스 시스템이 Map의 결과를 Reduce 단으로 모아줌 이 단계를 보통 셔플링이라 부르며 네트워크 단을 통한 데이터 이동이 생김 같은 키의 값들을 묶어서 밸류를 묶어주는 게 reduce 이 과정이 셔플링 map이 돌아가는 서버와 reduce 돌아가는 서버가 다르기 때문에, 네트워크를 통한 데이터 전송 이 셔플링 과정이 길어질 경우, 데이터 처리 과정이 길어짐 맵 리듀스 프로그래밍의 핵심 : 맵과 리듀..

데이터 엔지니어링/하둡 에코 시스템

[HIVE] 기본 개념 및 실습

안녕하세요! 오늘은 PIG에 이어서, HIVE에 대해 알아보도록 하겠습니다. HIVE Hive는 하둡에서 데이터를 처리하기 위한 데이터 웨어하우징 솔루션 중 하나입니다. Hive는 SQL을 사용하여 대규모 데이터 집합을 분석할 수 있도록 해주는 데이터 웨어하우스 솔루션입니다. Hive는 하둡 기반의 분산 데이터 저장소에서 SQL 쿼리를 실행할 수 있도록 해주는 인터페이스를 제공합니다. Hive는 HiveQL이라는 SQL과 비슷한 언어를 사용하여 데이터에 대한 쿼리 및 분석을 수행합니다. HiveQL은 기존의 SQL과 유사하며, 사용자는 대부분의 경우 HiveQL을 배우기 쉽습니다. 또한 HiveQL은 사용자가 쉽게 커스텀 함수와 집계 함수를 정의하고 사용할 수 있도록 해줍니다. Hive는 맵리듀스와 같은..

우상욱
'hive' 태그의 글 목록