REDSHIFT는 AWS의 확장 가능한 SQL 엔진(데이터 웨어하우스)
- 서버 클러스터에서 최대 2 페타바이트의 데이터 제공
- OLAP
- 응답 시간은 1초 미만이 아님
- 고객 대면 서비스에서 사용하면 안됨
- COLUMNAR STORAGE(열 기준 저장소)
- 테이블에서 열을 추가, 삭제하거나 이름을 변경하는 작업이 매우 빠름
- 열 당 압축(PER COLUMN COMPRESSION)이 사용됨
- BULK-UPDATE 지원
- CSV/JSON 파일을 S3에 업로드 -> S3에서 REDSHIFT로 복사
- 고정 용량 SQL 엔진
- 모든 데이터웨어하우스는 데이터의 크기, 속도 때문에 모든 PRIMARY키를 보장하지 않는다
- POSTGRESQL 8.X와 호환
- 다음 서비스와 완벽한 통합
- S3, EMR, KINESIS, DYNAMODB, RDS 등
- S3에서 백업 지원 : 이걸 SNAPSHOT이라고 하는데, 기본적으로 동일한 AWS 영역에 있음
- REDSHIFT의 확장
- PYTHON 기반 사용자 정의함수 지원(PYTHON 2.X)
- 캐싱(Caching) 지원(2017~)
- Athena(구조화되지 않은 데이터를 REDSHIFT로)
- BULK-UPDATE
- 하나씩 INSERT 명령하는 것이 아니라, 파일로 한번에 BULK 적재(COPY)
- 데이터웨어하우스 특성상, SQL INSERT INTO하면 적재하다가 시간이 다 간다.
- 이래서 데이터웨어하우스 솔루션은 기본적으로 INSERT를 안하고 COPY를 따로한다.
REDSHIFT에 접근하는 법
- 분석 툴 활용(TABLEAU, LOOKER)
- JDBC/ODBC 라이브러리
- 모든 POSTGRESQL 8.0.X는 호환 가능
- PYTHON에서 PSYCOPG2로 접근
- SQL CLIENT 사용
- POSTICO(MAC)
- SQL WORKBENCH
- DBEAVER
- DATAGRIP
- PYTHON NOTEBOOK
- GOOGLE COLAB
REDSHIFT SCHEMA
- RAW_DATA : 외부에서 적재된 테이블(ETL)
- ANALYTICS : ELT로 만들어진 테이블
- ADHOC
'데이터 엔지니어링 > 실리콘밸리에서 날아온 데이터엔지니어링 스타터 키트' 카테고리의 다른 글
SQL CASE WHEN (0) | 2023.04.01 |
---|---|
2주차 강의 요약 (0) | 2023.04.01 |
데이터엔지니어, 데이터웨어하우스 (0) | 2023.03.27 |
데이터 팀의 역할 (0) | 2023.03.27 |
1주차 강의 중요 포인트 요약 (0) | 2023.03.26 |