질문답변

데이터 노하우

데이터엔지니어링 관련 질문 모음집(20230512)

(1) PIG랑 HIVE, SPARK은 결국에 비슷한 기술 같은데 용도가 다른 점이 있을까요? PIG, HIVE는 디스크 기반 분산 처리 프레임워크기 때문에, 속도가 느리더라도 한번에 큰 파일을 다룰 수 있다는 점에서 적합합니다. 하지만 SPARK은 가공하려는 데이터를 메모리 위로 올려서 가공하기 때문에, 엄청나게 큰 파일을 가공하는데에는 한계가 있습니다. 따라서 큰 조직의 회사에서는 SPARK을 스트림 처리를 위해 사용하고, PIG, HIVE는 배치 처리를 위해 사용합니다. 물론 날마다 쌓이거나 하는 데이터의 크기가 SPARK으로 감당이 된다면, SPARK을 통해서 처리할 수도 있습니다. (2) HDFS에 있는 데이터를 처리해서, RDB 혹은 NOSQL로 계속 적재하면 DB에 결국 DB에 부하가 올 것..

우상욱
'질문답변' 태그의 글 목록