데이터웨어하우스

데이터 엔지니어링/실리콘밸리에서 날아온 데이터엔지니어링 스타터 키트

[3주차] ETL/데이터파이프라인

비구조화된 데이터 처리하기 LOG 대표적으로 데이터레이크에 저장하는 데이터. 원본 상태로 데이터레이크에 넣어둔 상태에서, 이걸 정제하고 가공해서 데이터웨어하우스에 적재한다. AMZONE S3(STROAGE) 클라우드 판 하드디스크라고 생각하면 좋다. 1테라 바이트당 한달에 만원 꼴. 온갖 종료의 데이터를 별다른 비용 걱정 없이 저장할 수 있다. 이 아마존 S3 같은 것을 데이터레이크(DATA LAKE)라고 한다. 데이터레이크 보존기한이 없는 모든 데이터를 원래 형태대로 보존하는 스토리지, 보통은 데이터 웨어하우스에 비해 몇 배 더 크다 APACHE SPARK, AMAZON ATHENA ATHENA는 BIG DATA SQL로 생각하면 좋다 SPARK도 SPARK SQL 혹은 DATAFRAME으로 판다스처럼..

데이터 엔지니어링/실리콘밸리에서 날아온 데이터엔지니어링 스타터 키트

2주차 강의 요약

스타트업 데이터플로우 리뷰 AIRFLOW AMZON EC2 설치 데이터웨어하우스 REDSHIFT 사용 대시보드 : 구글 LOOKER (에어비앤비가 만든 SUPERSET이라는 오픈소스 대시보드로 많이 사용) POSGRESQL에 있는 데이터, 데이터웨어하우스로 옮기기 APP 내 AMPLITUDE 설치(웹,앱 내 사용자가 어떤 데이터 클릭했고~, 어떤 버튼 클릭했고 등) 여기서 EVENT STREAM, CLICK STREAM 쭉 따서 저장했다. PAYMENTS로는 STRIP이라는 서비스 위 정보들을 ELT 정보들은 30분에 한번씩 SINK SUMMARY TABLE들만 대시보드와 데이터분석에 사용 : LOOKER 사용 요즘은 DBT로 SUMMARY TABLE에 적용해서 진행 데이터 관련 팁 관계형 데이터베이스는..

데이터 엔지니어링/실리콘밸리에서 날아온 데이터엔지니어링 스타터 키트

데이터엔지니어, 데이터웨어하우스

데이터 엔지니어의 역할 데이터 웨어하우스 관리 데이터 파이프라인 구축 및 관리 데이터 파이프라인 = ETL(EXTRACT, TRANSFORM, LOAD) = DATA JOB = DAG 데이터 파이프라인의 형태 배치 프로세스(BATCH PROCESSING) VS 실시간 프로세스(REALTIME PROCESSING) 요약 데이터 생성(DBT - ANALYTICS ENGINEER) 이벤트 수집(EVENT COLLECTION) 유저 행동 데이터 데이터 엔지니어가 알아야할 기술들은? SQL : HIVE, PRESTIO, SPARK SQL, ... PROGRAMMING LANGUAGE : PYTHON/SCALA/JAVA ETL/ELT SCHEDULER : AIRFLOW LARGE SCALE COMPUTING PLA..