2. 빅데이터 처리와 Spark 소개(맵리듀스 프로그래밍)
1. 맵리듀스 프로그래밍의 특징 데이터 셋은 Key, Value의 집합이며 변경 불가(immutable) 데이터 조작은 map과 reduce 두 개의 오퍼레이션으로만 가능 이 두 오퍼레이션은 항상 하나의 쌍으로 연속으로 실행됨 이 두 오퍼레이션의 코드를 개발자가 채워야함 나머지는 시스템이 다 알아서 함 맵리듀스 시스템이 Map의 결과를 Reduce 단으로 모아줌 이 단계를 보통 셔플링이라 부르며 네트워크 단을 통한 데이터 이동이 생김 같은 키의 값들을 묶어서 밸류를 묶어주는 게 reduce 이 과정이 셔플링 map이 돌아가는 서버와 reduce 돌아가는 서버가 다르기 때문에, 네트워크를 통한 데이터 전송 이 셔플링 과정이 길어질 경우, 데이터 처리 과정이 길어짐 맵 리듀스 프로그래밍의 핵심 : 맵과 리듀..