데이터 엔지니어의 역할
- 데이터 웨어하우스 관리
- 데이터 파이프라인 구축 및 관리
- 데이터 파이프라인 = ETL(EXTRACT, TRANSFORM, LOAD) = DATA JOB = DAG
- 데이터 파이프라인의 형태
- 배치 프로세스(BATCH PROCESSING) VS 실시간 프로세스(REALTIME PROCESSING)
- 요약 데이터 생성(DBT - ANALYTICS ENGINEER)
- 이벤트 수집(EVENT COLLECTION)
- 유저 행동 데이터
데이터 엔지니어가 알아야할 기술들은?
- SQL : HIVE, PRESTIO, SPARK SQL, ...
- PROGRAMMING LANGUAGE : PYTHON/SCALA/JAVA
- ETL/ELT SCHEDULER : AIRFLOW
- LARGE SCALE COMPUTING PLATFORM : SPARK/YARN
- CLOUD COMPUTING : AWS
- CONTAINER TECHNOLOGY : K8S, DOCKER
- 지식 : 머신러닝, A/B 테스트, 통계학
데이터 웨어하우스란 무엇인가?
데이터웨어하우스란 쉽게 말해, 데이터 분석용 분리된 SQL 데이터베이스
- 데이터웨어하우스는 PRODUCTION DATABASE로부터 분리되어야한다.
- 분석가들의 쿼리가, 실제 PRODUCTION DB에 쏴지면 시한 폭탄이다.
- 소규모 데이터 웨어하우스에서 시작해서, 점차 확장성이 뒤어난 솔루션으로 전환할 수 있다
- AWS REDSHIFT, SNOWFLAKE, GOOGLE CLOUD BIG QUERY, 오픈 소스 HIVE/SPARK/PRESTO
- OLTP VS OLAP
회사의 데이터 저장소 구조
- 데이터 웨어하우스는 진정한 데이터 조직이 되기 위한 첫 단계
- 서로 다른 소스의 RAW 데이터를 저장
- RAW 데이터로부터, 혹은 다른 데이터로부터 요약 테이블 생성
- 회사 내 직원에게 요약 테이블 노출
- 일관성이 정확성보다 중요하다.
- 이 과정은 ETL이 아닌 ELT
- 데이터웨어하우스 선택
- 가변비용 데이터웨어하우스
- 가변 비용 옵션을 통해 스토리지 및 컴퓨팅의 분리된 용량 증가 제공
- BIG QUERY, SNOWFLAKE
- 고정비용 데이터웨어하우스
- 고정 비용 옵션을 통해 안정적인 비용 예측(재무팀이 좋아함)
- REDSHIFT
- 정말로 데이터가 큰 곳이 아니라면 굉장히 좋은 옵션
- 가변비용 데이터웨어하우스
'데이터 엔지니어링 > 실리콘밸리에서 날아온 데이터엔지니어링 스타터 키트' 카테고리의 다른 글
SQL CASE WHEN (0) | 2023.04.01 |
---|---|
2주차 강의 요약 (0) | 2023.04.01 |
REDSHIFT(AWS) (0) | 2023.03.27 |
데이터 팀의 역할 (0) | 2023.03.27 |
1주차 강의 중요 포인트 요약 (0) | 2023.03.26 |