(1) PIG랑 HIVE, SPARK은 결국에 비슷한 기술 같은데 용도가 다른 점이 있을까요?
PIG, HIVE는 디스크 기반 분산 처리 프레임워크기 때문에, 속도가 느리더라도 한번에 큰 파일을 다룰 수 있다는 점에서 적합합니다. 하지만 SPARK은 가공하려는 데이터를 메모리 위로 올려서 가공하기 때문에, 엄청나게 큰 파일을 가공하는데에는 한계가 있습니다. 따라서 큰 조직의 회사에서는 SPARK을 스트림 처리를 위해 사용하고, PIG, HIVE는 배치 처리를 위해 사용합니다. 물론 날마다 쌓이거나 하는 데이터의 크기가 SPARK으로 감당이 된다면, SPARK을 통해서 처리할 수도 있습니다.
(2) HDFS에 있는 데이터를 처리해서, RDB 혹은 NOSQL로 계속 적재하면 DB에 결국 DB에 부하가 올 것 같습니다. 혹시 어떻게 해결하나요?
서비스 확장을 할 수도 있습니다. 다만, NOSQL은 이런 식으로 데이터가 쌓이는데에 적합하기 때문에 하둡 위에서 NOSQL을 사용하고, 이 NOSQL을 통해서 서비스를 진행하는 방식으로 바꿉니다.
(3) HDFS가 있는데 굳이 또 다른 데이터레이크를 운용하는게 궁금합니다.
HDFS에 데이터가 있다고 하더라도, 그걸 클라우드나 다른 서비스에 이용하는데에는 분명히 한계가 있습니다.
따라서 클라우드에서 이용하기 위해서 S3 같은 데이터레이크를 운용합니다. S3 같은 데이터레이크로 사용되는 저장소는,
하둡이 아니더라도 분명히 다른 방식으로 분산 처리를 지원합니다.