- 배운 것
- Spark DataFrame 활용 데이터 가공 및 처리
- 정형데이터 처리 쪽은 SparkSQL이 훨씬 편하고 좋은 것 같음
- 그런데 정형데이터 처리할 때 조금 난해한 문제들이 있음
- 예를 들어 데이터 하나가 1정규화 안된 채로 있어서, 이걸 1정규화 해줘야 하는 경우
- split, explode 같은 거 활용(pandas랑 크게 다르지 않음)
- 예를 들어 데이터 하나가 1정규화 안된 채로 있어서, 이걸 1정규화 해줘야 하는 경우
- 비정형 데이터 처리
- regex 핵꿀
- 데이터 저장
- 데이터 저장 방식이 좀 흥미로웠는데, 애초에 Spark은 partition 단위로 가공하기 때문에 파일을 저장해도 애초에 폴더로 저장해서, 그 안에 part로 저장됨
- 일단 지금은 standalone이라 1개씩 저장되는데, 기본적으로 큰 데이터 가공하면 part가 여러 개씩 나올듯(예를 들면 data.csv로 저장하면 폴더명이 data.csv임 !!!)
- Spark redshift Connect
- 그냥 별거 없고 애초에 jvm으로 작동돼서, db connect 할 때 jdbc로 함
- redshift 연결할 때는 aws에서 제공한 redshift jdbc connector 따로 씀
- Spark 카탈로그
- 데이터 처리하면서 테이블로 로드해놓은 건, catalog 라는 메소드로 확인할 수 있는데
- Spark는 인메모리 방식이라 결국에 커널 끄면 catalog도 날라감
- 그런데 이 catalog를 persist한 방식으로 저장하려면 HIVE METASTORE를 쓴다까지 배움
- 왜 persist하게 저장하는지는 잘 모르겠음, 뒤에 알려주신다고 하심
- Spark DataFrame 활용 데이터 가공 및 처리
- Spark 윈도우 관련 에러
- 에러가 한 두 세개 있었는데, chatgpt로는 다 실패하고 역시 stackoverflow가 쵝오
- 혹시 윈도우에서 Spark 실습하실 분은 제 블로그를 참고하십시여
- 근데 찾아보면서 느낀건데 맥북이 참 좋은듯…
며칠 쉬다가 Spark 공부하는데, 너무 재미있다..
'일기' 카테고리의 다른 글
2023년 11월 회고록같은 자기반성 (1) | 2023.11.12 |
---|---|
데이터엔지니어가 되고 나서 (2) | 2023.10.17 |
다시 시작하기 (4) | 2023.07.09 |
플레이데이터 데이터엔지니어링 트랙 완강 후기 (3) | 2023.07.03 |
데이터엔지니어링 트랙 5개월차 후기 (0) | 2023.05.12 |