# 특성 데이터 스케일링
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)
표준화 스케일링 시에는, train 데이터 셋을 기준으로 fit하고 test 데이터를 transform한다.
# 평가
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = dt.predict(X_train_scaled)
train_score = accuracy_score(y_train, y_pred)
y_pred = dt.predict(X_test_scaled)
test_score = accuracy_score(y_test, y_pred)
print(f'train_score : {train_score:.3f}')
print(f'test_score : {test_score:.3f}')
train을 학습한 모델로 train을 예측해보고, test를 예측한 데이터와 모델 평가점수를 비교
train 모델 평가 지표가 좋고, test 평가점수 지표가 나쁘면 과적합
'데이터 노하우 > 꿀팁' 카테고리의 다른 글
Airflow 관련 문의 기록 (0) | 2023.07.12 |
---|---|
빅데이터 처리 프로세스 (0) | 2023.04.04 |
Pandas 데이터 처리 효율성 전략(Pycon Korea) (2) | 2023.02.21 |