극도의 불균형 데이터세트의 학습 : 학습을 제대로 수행하기 어려움
오버샘플링, 언더샘플링
지도학습에서 극도로 불균형한 레이블 값의 분포로 인한 문제점을 해결하기 위해 적절한 학습 데이터를 확보하는 방안
오버샘플링 : SMOTE 방식
근접 값 기준으로 중심에 데이터를 생성하는데, 신규 증식하여 오버 샘플링한다.
이상치(Outlier) 데이터
이상치 데이터 : 전체데이터의 패턴에서 벗어난 이상 값을 가진 데이터
이상치로 인해 머신러닝 모델의 성능에 영향을 받는 경우가 발생하기 쉽다.
- 이상치를 찾는 방법 : IQR(Inter Quantile Range)방식, 사분위(Quantile) 값의 편차를 이용하는 기법, 박스플롯으로 시각화
- 사분위 : 전체 데이터를 정렬하고, 25% 구간으로 분할(순위제)
- IQR : Q1 ~ Q3 구간
이상치 판단 기준
SMOTE를 적용할 때는 반드시 학습 데이터세트만 오버 샘플링해야 함.
검증 데이터 세트나 테스트 데이터 세트를 오버 샘플링할 경우 결국은 원본 데이터가 아닌 데이터 세트에서 검증 또는 테스트를 수행해야 하기 때문에 올바른 검증/테스트가 될 수 없다.
'머신러닝 및 딥러닝 > 머신러닝' 카테고리의 다른 글
군집(clustering) (0) | 2023.02.15 |
---|---|
스태킹 앙상블(Stacking Ensemble, 블렌딩) (0) | 2023.02.14 |
Gradient Boosting(GBM), LGBM, XGBOOST (0) | 2023.02.13 |
앙상블 이론 (0) | 2023.02.13 |
결정트리 이론 (0) | 2023.02.10 |