데이터 가공

데이터 노하우/꿀팁

Pandas 데이터 처리 효율성 전략(Pycon Korea)

이 글은 PyCon Korea의 "뚱뚱하고 굼뜬(Pandas)를 위한 효과적인 다이어트 전략 - 오성우" 영상을 참고했습니다. https://www.youtube.com/watch?v=0Vm9Yi_ig58 1. Memory Optimization 1-1 코드화 문자열로 된 데이터를 숫자/영어로 변환하여 데이터 크기 축소 남자 -> 0 여자 -> 1 서울특별시 -> 11 대구광역시 -> 45 정상 -> 0 비정상 -> 1 한글 문자열로된 범주 값을 숫자 형태로 변환하는 코드화 작업을 진행했더니 4.49GB -> 1.79GB로 크게 감소 1-2 데이터 형식 변환 데이터 형식에 따라서 표현하는 값의 범위와 사용하는 메모리 크기가 달라집니다. 컬럼마다 고정된 크기(Fixed-length)로 할당하기 때문에 크기..

우상욱
'데이터 가공' 태그의 글 목록