이상적인 데이터 조직
- 데이터 엔지니어 영입을 통한, 데이터 인프라 구축 기반
- 요즘 데이터팀 개발 방식 -> 애자일
- 솔루션은 간단히 : ex) 딥러닝을 고집할 필요가 없음(머신러닝, 혹은 CASE 별 IF문 또한 좋은 해결책)
- 어떤 이슈든 간에 업무의 성공여부를 결정해주는 지표를 생각하고 행동
에어플로우(AIRFLOW)
ETL을 만들면 이를 주기적으로 실행해야함. 이를 위해 스케줄러가 필요한데, "에어플로우"를 기업들 대다수가 사용 중
ETL
- EXTRACT(추출) : 데이터를 웹, 혹은 외부 환경에서 추출하는 과정
- TRANSFORM(변환) : 데이터를 특정 형식에 맞게 가공하고 변환하는 과정
- LOAD(적재) : 데이터를 특정 저장소(데이터베이스, 데이터레이크, 데이터웨어하우스)에 삽입하는 과정
가장 많이 사용되는 데이터 웨어하우스
- AWS의 REDSHIFT
- GOOGLE CLOUD의 BIG QUERY
- SNOWFLAKE
데이터 엔지니어의 기본 3가지
- SQL
- 파이썬
- 에어플로우
A/B 테스팅
요인(독립변수)을 일정 케이스로 분류하고, 해당 케이스 별 결과(종속변수)의 결과를 비교 분석하는 과정. 특히 웹에서 방문자에 대해, 기존 사이트와 새로운 사이트를 보여주고, 어떤 사이트가 더 나은 성과를 보이는지 평가할 때 자주 사용된다.
'데이터 엔지니어링 > 실리콘밸리에서 날아온 데이터엔지니어링 스타터 키트' 카테고리의 다른 글
SQL CASE WHEN (0) | 2023.04.01 |
---|---|
2주차 강의 요약 (0) | 2023.04.01 |
REDSHIFT(AWS) (0) | 2023.03.27 |
데이터엔지니어, 데이터웨어하우스 (0) | 2023.03.27 |
데이터 팀의 역할 (0) | 2023.03.27 |