'데이터 노하우/꿀팁' 카테고리의 글 목록

Airflow 관련 문의 기록

2023.07.12

프로젝트 당시 S3toRedshiftOperator 사용시 생겼던 문제에 관한 기록입니다. https://dataengineerstudy.tistory.com/194 [AWS REDSHIFT] AIRFLOW S3 → Redshift UPSERT 관련 에러('syntax error at or near "#"') 먼저 이 글은 저와 같이 REDSHIFT를 AIRFLOW와 연동해서 쓸 때 생기는 문제에 관한 글입니다. 문서가 너무 없고, 저만 겪는 상황 같아서, 열심히 삽질한 결과 작성해놓습니다. 이 글을 읽어보실 분들 dataengineerstudy.tistory.com 당시 문제점들을 기록해놨고, 해당 문제를 airflow 공식 github에 문의한 상태입니다. 임시로 해결해놨지만, 정말 임시로 해결한 문..

데이터 노하우/꿀팁

빅데이터 처리 프로세스

2023.04.04

빅데이터 처리 프로세스 HDFS 구조 HIVE, PIG MAPREDUCE는 자바 기반 병렬처리 프레임워크 MAP REDUCE를 가지고 만든 언어 PIG (인터프리터 방식) SQL로 만든 언어 HIVE, 내부는 MAP REDUCE로 동작 결국 HIVE, PIG는 컴파일 되면서 아랫단에서 JAVA로 동작하는데, 개발자는 편할지 몰라도 시스템 자체에는 좋지 않을 수 있음 HADOOP ECOSYSTEM 예전에는 하둡 버전에 맞춰서, 다른 프레임워크의 각각의 버전을 맞췄어야함 사람들이 불평불만을 하기 시작했는데, 다 같이 공생해야하니까 얘네들이 하나의 큰 단체를 만듬 하둡을 중심으로 큰 단체를 만들었다. 그래서 지금 버전이 업그레이드 되면, 공식 문서에 어떤 버전이 맞는지 업데이트 되면 공지함 MAHOUT : 머..

데이터 노하우/꿀팁

Pandas 데이터 처리 효율성 전략(Pycon Korea)

2023.02.21

이 글은 PyCon Korea의 "뚱뚱하고 굼뜬(Pandas)를 위한 효과적인 다이어트 전략 - 오성우" 영상을 참고했습니다. https://www.youtube.com/watch?v=0Vm9Yi_ig58 1. Memory Optimization 1-1 코드화 문자열로 된 데이터를 숫자/영어로 변환하여 데이터 크기 축소 남자 -> 0 여자 -> 1 서울특별시 -> 11 대구광역시 -> 45 정상 -> 0 비정상 -> 1 한글 문자열로된 범주 값을 숫자 형태로 변환하는 코드화 작업을 진행했더니 4.49GB -> 1.79GB로 크게 감소 1-2 데이터 형식 변환 데이터 형식에 따라서 표현하는 값의 범위와 사용하는 메모리 크기가 달라집니다. 컬럼마다 고정된 크기(Fixed-length)로 할당하기 때문에 크기..

데이터 노하우/꿀팁

Scaling 꿀팁 + 과적합 쉬운 비교 방법

2023.02.10

# 특성 데이터 스케일링 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() scaler.fit(X_train) X_train_scaled = scaler.transform(X_train) X_test_scaled = scaler.transform(X_test)표준화 스케일링 시에는, train 데이터 셋을 기준으로 fit하고 test 데이터를 transform한다. # 평가 from sklearn.metrics import confusion_matrix, accuracy_score y_pred = dt.predict(X_train_scaled) train_score = accuracy_score(y_train, y_pre..

Airflow 관련 문의 기록

빅데이터 처리 프로세스

Pandas 데이터 처리 효율성 전략(Pycon Korea)

Scaling 꿀팁 + 과적합 쉬운 비교 방법

티스토리툴바