정규화

데이터 엔지니어링/데이터베이스 및 운영체제

정규화

이상현상 삭제이상(deletion anomly) 투플 삭제 시 같이 저장된 다른 정보까지 연쇄적으로 삭제되는 현상→ 연쇄삭제(triggered deletion) 문제 발생 삽입이상(insertion anomly) 투플 삽입 시 특정 속성에 해당하는 값이 없어 NULL 값을 입력해야 하는 현상→ NULL 값 문제 발생 수정이상(update anomly) 투플 수정 시 중복된 데이터의 일부만 수정되어 데이터의 불일치 문제가 일어나는 현상 → 불일치(inconsistency) 문제 발생 이상현상을 막는 예시 정규화 제 1정규형 릴레이션 R의 모든 속성 값이 원자값을 가지면 제 1정규형이라고함 제 1정규형으로 변환 고객 취미들(이름, 취미들) 릴레이션을 고객취미(이름, 취미) 릴레이션으로 바꾸어 저장하면 제 1..

머신러닝 및 딥러닝/머신러닝

경사하강법 이론2(+ Feature Scaling)

Feature Scaling 데이터 변환 중 가장 중요한 변환 중 하나/ 대부분의 머신러닝 알고리즘은 입력 숫자 특성들의 스케일이 많이 다르면 잘 작동하지 않음(Decision Tree 예외) 정규화(Normalization) 모든 값이 0 ~ 1 사이에 들도록 범위를 조정(feature_range로 조정 가능) sklearn.preprocessing.MinMaxScaler 표준화(Standardization) 평균을 뺀 후 표준편차로 나누어 평균 0, 분산 1이 되는 분포로 전환 각 특성값이 0에서 표준 편차의 몇 배만큼 떨어져 있는가 Min-max 스케일링과 달리 표준화는 범위의 상한과 하한이 없음 신경망의 경우 입력값의 범위를 0~1로 기대함 표준화는 이상치에 영향을 덜 받음(vs.min-max 스..