동작구조

데이터 엔지니어링/Spark

4. Spark 프로그래밍 : DataFrame(데이터처리, 동작구조)

1. Spark 데이터 시스템 아키텍처 adhoc 형태의 인터랙티브 쿼리를 날리거나 할 때, presto나 hive를 써도 큰 상관이 없다. 다만 Spark으로 옮겨가는 이유는 하나의 시스템으로 다양한 기능을 할 수 있기 때문이다. 외부 데이터(RDB, NOSQL)는 로딩해서 프로세싱해서 데이터엔지니어들이 HDFS로 주기적으로 읽어오게 한다. 보통 ETL JOB 스케줄을 위해서는 AIRFLOW를 사용한다. 다른 방법으로는 SPARK에서 로딩을 해서 보내는 거다. SPARK STREAMING 배치로 SPARK SQL 활용 LOAD 하는 곳은 NOSQL, RDB, 데이터 레이크가 될 수도 있다. DATA STRUCTURE들이 나뉘어서 SPARK에 LOAD 된다. 데이터 병렬처리가 가능하려면? 데이터가 먼저 ..

우상욱
'동작구조' 태그의 글 목록