다항회귀를 이용한 과적합 이해
좋은 모델이란?
과적합(과대적합, 과소적합)
모델의 적합성과 일반화 오차
- 훈련 데이터를 이용하여 학습한 모델이 아직 얻지 못한 데이터(검증 데이터)에 대한 결과값을 얼마나 정확하게 예측할 수 있는지 판단하기 위해 필요한 개념.
- 적합도: 가지고 있는 데이터(훈련 데이터)에 대해 모델을 적용했을 때 들어맞는 정도
- 예측 정확도: 아직 얻지 못한 데이터(검증 데이터)에 대해 모델을 적용했을 때 들어맞는 정도
- 일반화 오차: 아직 얻지 못한 데이터에 대한 예측 오차
※ 훈련데이터(트레이닝 데이터) : 파라미터 추정에 사용하는 데이터
※ 테스트 데이터: 일반화오차를 평가하기 위해 파라미터 추정에 사용하지 않고 남겨둔 데이터. 파라미터 추정에 사용하지 않은 테스트 데이터로 모델의 성능을 평가하는 것으로 일반화 오차를 어느 정도 평가할 수 있다.
과대적합
- 모델의 적합도는 높은데, 예측 정확도(일반화generalization)가 낮아지는 경우
- 가지고 있는 훈련 데이터에 지나치게 적합한 모델을 만들면 발생
- 결과적으로 특정 데이터셋(훈련 데이터)에만 적합하고 알려지지 않은 데이터에 대한 예측력은 낮아짐
- 모델이 고분산됨. 모델이 모든 특징을 세밀하게 설명할 수 있을만큼 모델 유연성이 충분하지만 훈련데이터의 잡음까지 반여하고 있음.
과소적합
- 훈련 모델이 너무 단순하여 훈련 데이터의 특징을 잘 학습하지 못한 상태
- 데이터의 특성에 대한 설명력이 낮고 다른 데이터 예측에 대한 신뢰성이 낮음.
- 훈련 데이터 및 검증 데이터셋 모두 큰 오차를 보임
- 모델의 유연성이 충분하지 않다
실제 비즈니스에선 과대적합이 굉장히 다루기 어렵다. 실제 오픈 전까지는 모델의 예측률이 매우 높아보이고 좋아보이지만 실제 다른 데이터에 적용했을 때, 성능이 좋지 않은 경우가 있다. 과소적합은 그냥 불량품이다.
과대적합과 과소적합의 원인과 해결방안
과대적합
과소적합
학습곡선(Leaning Curve)을 통한 과적합 판단
'머신러닝 및 딥러닝 > 머신러닝' 카테고리의 다른 글
규제가 있는 선형회귀 - 라쏘, 릿지, 엘라스틱넷 회귀 (0) | 2023.02.09 |
---|---|
머신러닝 모델 최적화 - 편향,분산 트레이드오프 / 교차 검증 (0) | 2023.02.09 |
다항회귀이론( + 사이킷런 transformer) (0) | 2023.02.08 |
경사하강법 이론2(+ Feature Scaling) (0) | 2023.02.08 |
경사하강법 이론 (0) | 2023.02.08 |