데이터 플로우
데이터 조직의 비전
- 데이터 팀은 직접 매출을 발생시키는 조직이 아니다. 기본적으로 데이터 팀은 서포트 조직이다.
- 데이터 팀은 더 좋은 의사결정을 위해서, 높은 퀄리티의 데이터를 시의적절한 방법으로 제공해야한다.
- 데이터 팀은 프로덕트/서비스를 '고품질 데이터'를 통해 기능을 개선한다.
- 개인화를 바탕으로 한 추천(Recommendation)과 검색 기능 제공
- 머신러닝을 통한 운영 비용 줄이기(공정 과정 오동작 기기 예측 등)
- 결국 데이터팀은 끊임없이, 회사의 매출/이윤과 상관관계를 정량화하고, 데이터팀의 존재이유, 존재가치를 잘 설명해야한다.
- 데이터 품질 + 모두가 신뢰할 수 있을 만한 지표 설정
- 간단한 솔루션일 수록, 좋은 솔루션이다. 회사의 운영비용과 관련(딥러닝이 무조건 좋은 게 아니다)
데이터 팀의 구성
- 데이터 사이언티스트
- 알고리즘을 통한 고객 경험 향상(예측 알고리즘 등)
- 인내심, 실용성 있는 사람(박사 학위 유리)
- SKILL
- 머신러닝에 대한 이해와 경험
- 파이썬/스파크
- SQL/HIVE
- R/SAS/MATLAB(수학, 통계학)
- 데이터 분석가
- 비즈니스 인텔리전스 담당
- 주요 지표 정의 및 대시보드 생성
- 경영진의 데이터 기반 의사 결정 지원
- SKILL
- SQL/HIVE
- R/SAS/MATLAB(수학, 통계학)
- 비즈니스 도메인에 대한 강한 지식
- 데이터 엔지니어
- 대규모 데이터베이스 관리 : REDSHIFT, BIGQUERY, SNOWFLAKE
- 데이터 파이프라인(ETL) 구축 및 관리
- SaaS ETL : FIVETRAN, STITCHDATA, SEGMENT,...
- 데이터 TOOL
- For Knowledge share, 중복 행위 감소 등
- For MachinLearning Traning Dataset(예측 모델 구축 파이프라인 등)
- 클라우드는 선택 사항
조직 내 데이터팀의 구조
- 중앙 집중형
- 데이터 팀간 지식 공유 및 협업 증대
- 도메인 지식 감소(산업)
- 데이터 팀 구성원의 경력에 도움
- 중앙에서 데이터를 가져다 쓰기 때문에, 데이터팀 만족도 높음
- 분산 및 탈집중형
- 데이터 과학자/분석가 다른 UNIT에 포함
- 각 UNIT에서 우선순위, 업무 결정
- 데이터 업무를 맡는 사람들 간의 지식 공유 및 협업 감소
- 산업에 대한 데이터 지식이 증가
- 하이브리드
- 데이터 과학자/분석가의 우선순위 및 업무는 중앙팀과 각 외부팀이 일괄적으로 결정합니다
- 가장 이상적인 구조
'데이터 엔지니어링 > 실리콘밸리에서 날아온 데이터엔지니어링 스타터 키트' 카테고리의 다른 글
SQL CASE WHEN (0) | 2023.04.01 |
---|---|
2주차 강의 요약 (0) | 2023.04.01 |
REDSHIFT(AWS) (0) | 2023.03.27 |
데이터엔지니어, 데이터웨어하우스 (0) | 2023.03.27 |
1주차 강의 중요 포인트 요약 (0) | 2023.03.26 |