일반화 오차 = 분산 + 편향 ** 2 + 노이즈
편향(Bias)
- 일반화 오차 중 잘못된 가정으로 생긴 오차
- 데이터 또는 학습 모델이 정답으로부터 얼마나 특정 방향으로 치우쳐있는가를 의미함
- 학습모델의 예측값이 정답과 멀리 치우친 경향이 있을 때 고편향(high-bias)되어 있다고함(과소 적합)
분산(Variance)
- 훈련 데이터셋에 내재된 작은 변동에 의해 발생된 오차
- 데이터 또는 학습 모델이 얼마나 넓은 범위에 걸쳐 분포되어 있는가를 의미함
- 높은 분산값(high variance)은 학습 모델에서 예측값이 넓게 흩어져 있어 변동성이 높은 때를 말하며 과대 적합되는 경향이 있음
편향-분산 트레이드오프(Bias-variance tradeoff/dilemma)
- 지도 학습 알고리즘이 훈련 데이터셋의 범위를 넘어 지나치게 일반화하는 것을 예방하기 위해 두 종류의 오차(편향, 분산)을 최소화할 때 겪는 문제
- 이상적인 모델 복잡도는 과적합되지 않으며 특성 설명력이 충분한 것.
편향과 분산의 관계
- 모델을 학습시킬수록 모델 복잡도는 올라감
- 학습을 시킬수록 편향은 줄어드나 분산은 올라감
- 학습이 적을수록 편향은 올라가나 분산은 내려감
- 과대적합 : 분산이 높고 편향이 낮아짐
- 과소적합 : 편향이 높고 분산이 낮아짐
- Total Error : Varance + Bias ^ 2 + noise(분산 편향 트레이드오프)
결론
1) 전체 오차는 편향-분산 트레이드 오프 때문에 계속 학습시킨다고 줄어드는 것이 아니다.
2) 학습을 통해서 전체 오류가 최소화되는 점을 찾으면 가장 최적의 모델이 된다.
교차검증
K-폴드 교차검증(k-fold CV)
- 데이터를 무작위로 중복없이 K개의 동일한 크기의 폴드로 나눔(예:3, 5, 10)
- K-1겹으로 모델을 훈련하고 나머지 하나로 성능을 평가함(각 폴드를 테스트세트로 한 번씩 사용)
- 즉, K번 반복하므로 K개의 서로 다른 모델을 얻을 수 있음(K폴드(겹))
- 홀드아웃교차 검증의 단점(데이터를 분할 방법에 따라 평가 결과 상이) 교정
- 각각의 폴드에서 얻은 성능을 기반으로 최종적으로 모델 성능의 평균을 계산
- 홀드아웃 방법보다 데이터 분할에 덜 예민한 성능 평가 가능
- K폴드 교차 검증은 중복을 허락하지 않기 때문에 모든 샘플이 검증에 1회씩 사용됨
- K가 클수록 시간이 오래 걸림
사이킷런 K-폴드 교차검증
kFold -> 분할(실제로 KFold로 성능평가하는 경우가 더 많다)
cross_val_score() -> 분할, 학습, 평가
'머신러닝 및 딥러닝 > 머신러닝' 카테고리의 다른 글
로지스틱 회귀 이론(분류), 분류 성능평가지표 (0) | 2023.02.09 |
---|---|
규제가 있는 선형회귀 - 라쏘, 릿지, 엘라스틱넷 회귀 (0) | 2023.02.09 |
머신러닝 모델 최적화 - 과적합 (0) | 2023.02.08 |
다항회귀이론( + 사이킷런 transformer) (0) | 2023.02.08 |
경사하강법 이론2(+ Feature Scaling) (0) | 2023.02.08 |