데이터 엔지니어링/실리콘밸리에서 날아온 데이터엔지니어링 스타터 키트
[3주차] ETL/데이터파이프라인
비구조화된 데이터 처리하기 LOG 대표적으로 데이터레이크에 저장하는 데이터. 원본 상태로 데이터레이크에 넣어둔 상태에서, 이걸 정제하고 가공해서 데이터웨어하우스에 적재한다. AMZONE S3(STROAGE) 클라우드 판 하드디스크라고 생각하면 좋다. 1테라 바이트당 한달에 만원 꼴. 온갖 종료의 데이터를 별다른 비용 걱정 없이 저장할 수 있다. 이 아마존 S3 같은 것을 데이터레이크(DATA LAKE)라고 한다. 데이터레이크 보존기한이 없는 모든 데이터를 원래 형태대로 보존하는 스토리지, 보통은 데이터 웨어하우스에 비해 몇 배 더 크다 APACHE SPARK, AMAZON ATHENA ATHENA는 BIG DATA SQL로 생각하면 좋다 SPARK도 SPARK SQL 혹은 DATAFRAME으로 판다스처럼..