일단 너무 재밌다. 부족했던 부분이 하나하나 채워지는 것 같다.
특히 강사님께서 간단한 코드에도 컴퓨터 공학적 지식?을 담아서 설명해주시는데,
어떻게 코드에 구현할 수 있을까 들으면서 계속 고민했던 하루였다.
리스트, 튜플
특히 오늘 제일 인상 깊었던 건 튜플, 리스트의 차이였는데 수정이 가능하고 불가능한 차이 때문에,
자료가 커질수록 리스트가 시간이 압도적으로 많이 걸린다는 점..
예전에 데이터 전처리 자동화 프로그램 만들 때, 일부 구간에서 튜플을 적용해서 인덱스를 받아왔다면,
실행속도를 압도적으로 줄일 수 있었을 것 같다!!
다만 튜플을 일부 구간에서 써야하고
리스트랑 튜플이랑 합치는 과정에서 더 메모리 손실이 발생할 수도 있을 것 같다
당시에는 데이터프레임 자체에서 작업을 하도록 하면, 시간이 너무 오래 걸려서
가공해야하는 인덱스를 리스트로 받아서 저장했었다.
엄청 많은 생각을 했었는데, 너무 횡설 수설이라 그냥 정리해보면
- 튜플을 통해서 큰 양의 데이터의 인덱스를 저장하기(업데이트가 필요없는 구간만 적용해야한다)
- 분산처리 과정(당시에는 pandas의 chunk로 분산처리했음)에서 튜플,리스트를 써가면서 메모리를 줄일 방법은!!?
- 데이터의 성격에 따라 튜플과 리스트를 병행하가면서 쓰는 연습을 해야할 것 같다.
- 빅데이터 가공할 때, 업데이트가 필요없는 가공 타겟 인덱스를 저장한다면 그 때 튜플로 해보자.
리스트 메서드
또 너무 유익했던 자료는 리스트 메서드를 배울 때였는데
리스트메서드는 반환값이 있고, 없고에 따라서 리턴값이 없어서 예전에 야금야금 시간 잡아먹었던 기억이 났다.
그래서 블로그에 표를 가져다놨다 ㅎㅎㅎ
그리고 리스트를 통해서 자료구조 맛보기처럼 해주셨는데
append랑 pop을 이용해서, stack의 개념을 설명해주셨다
이 부분은 간단한 데이터처리 과정에 사용할 수 있을 것 같은데
자료구조 배울 때, 좀 더 파봐야할 것 같다
map
맞다. map을 배웠는데 사실 나는 apply랑 lambda 먼저 찍는 것부터 배워서 리스트에 map을 써서
함수 적용할 수 있는지 오늘 알았다...ㅋㅋㅋㅋ
항상 for문으로 가공했던 것 같은데...
map, apply, lambda 요 세개는 약간 세트로 묶어두면 좋을듯
내일 계획
계속 배워야한다!! 오늘은 학원에 계신 분들이랑 연락처 교환도 많이하고
깃허브 맞팔도 많이 했는데, 너무너무너무너무너무너무 재밌다
뭔가 듬직한 동료들을 얻은 기분..?
내일은 sk 구내식당가서 밥먹어보기
'일기' 카테고리의 다른 글
데이터엔지니어링 트랙 4~8주차 후기 (0) | 2023.02.26 |
---|---|
데이터엔지니어링 트랙 3주차 후기 (4) | 2023.01.22 |
데이터엔지니어링 트랙 2주차 후기 (0) | 2023.01.13 |
데이터엔지니어링 트랙 1일차 후기 (0) | 2023.01.05 |
블로그를 시작하면서 (1) | 2023.01.04 |