다중선형회귀
- 단순 선형 회귀에서 독립변수의 개수만 늘어난 것이다.
- 따라서 단순 선형 회귀와 동일한 절차를 이용하여 분석을 수행할 수 있다.
- 단, 독립 변수의 수가 많아지므로 이로 인해 발생할 수 있는 경우들을(과적합) 고려해서 적절한 조치를 취해야한다
- 독립변수들의 최초 선택(feature_engineering > feature_selection)
- 회귀분석의 목적: 종속 변수를 가장 잘 설명하는 독립변수들의 성향/특징들을 찾아내어 이를 기반으로 기존의 자료를 설명하거나 새로운 결과를 예측하는 것
- 독립변수를 임의로 누락시키는 것은 해당 모델의 설명력이 낮아지는 문제
- 회귀 분석을 수행하는 경우, 관련 있는 독립변수는 일단 가급적 모두 고려
탐색적 데이터 분석(Exploratory Data Analysis)
- 수집한 데이터를 분석하기 전에 데이터의 특성을 관찰하고 이해하는 단계. 원 데이터(Raw Data)를 대상으로 유연하게 데이터를 탐색하고, 데이터의 특징과 구조에 대한 정보를 획득함
- 데이터 종류의 확인과 데이터 간의 관계에 대한 더 나은 이해를 목적으로 함, 데이터를 살펴서 명백한 오류를 제거하고 데이터 내의 패턴을 이해하고 이상치를 감지하며 변수 간의 맥락을 찾아냄
- EDA 도구
- 요약 통계 및 각 독립 변수에 대한 일변량 시각화
- 클러스터링 및 차원축소 기술
- 도표, 그래프 등의 시각화, 요약 통계를 이용하여 전체적인 데이터를 살펴보고 개별 속성의 값을 관찰
탐색적 데이터 분석 방법
- 전체적인 데이터 살펴보기
1) 데이터 항목의 개수, 속성 목록, 결측치, nan 값, 데이터 형 확인
2) 오류 데이터 확인
3) 각 속성값의 범위 및 분포 확인 - 이상치(Outlier) 분석
1) 개별 데이터를 관찰하여 전체적인 추세 및 특이 사항 확인
2) 적절한 요약 통계 지표 확인 – 평균값, 중앙값, 최빈값, 분산 - 속성 간의 관계 분석 – 상관 관계 분석
1) 서로 의미 있는 상관관계를 갖는 속성의 조합 찾기
2) 상관 분석, 다중 공선성 확인
다중공선성
상관관계
- 변수들이 같은 방향으로 움직이려는 경향(양의 상관, 음의 상관)
- 높은 상관성을 가질 때 개별 계수를 해석하는 것이 어렵다
상관 분석 시각화
상관분석에는 두 변수 간의 관계를 보여주는 산점도 또는 히트맵을 많이 사용한다.
sns.heatmap(corrs, annot = True, annot_kws = {'size' : 13})
다중 공선성((Multi-collinearity)
- 다수의 독립변수가 서로 강한 상관 관계(0.9)가 나타나는 것을 다중 공선성이라고 한다. (즉, 어떤 독립변수의 값이 독립적이지 않고 다른 독립변수(들)의 값에 의해서 결정된다는 것이다.)
- 독립변수들끼리의 상관 계수 R이 지나치게 높으면 (아무리 설명력이 좋다고 하더라도) 회귀 모형이 유의미하다고 보기 어렵다. (회귀 계수의 추정의 오류가 발생한다)
- 회귀 분석의 전제 중 하나인 독립성을 가진 독립변수들이 각각 종속변수의 분산을 설명하여야 영향력을 예측할수 있는데, 하나로 봐도 무방한 독립 변수가 사용되면 설명력을 떨어뜨리고 표준오차를 증가시킨다
- 따라서 상관 계수가 높은 변수들을 삭제하거나, 주성분 분석(PCA) 기법 등을 이용하여 의존적인 성분을 제거한 뒤 회귀 분석을 수행해야 한다
- 다중공선성 발생한 두 독립변수 제거
- 발생한 두 독립변수 중 하나 선택(종속변수에 영향이 더 작은 것)
- 둘다 살린다
- 둘을 합쳐서 파생변수 생성
- 모델링 이후 평가
수정된 결정 계수(Adjusted R sqaure)
- 독립변수의 개수가 많아질수록 그 변수들이 종속변수에 끼치는 영향력은 늘어나게 된다. (즉, 독립변수가 많을수록 종속변수에 대한 설명력은 증가한다.
- 따라서 다중 회귀 분석에서는 결정 계수 R2의 값이 단순 회귀보다 높게 나오는 경향이 있고, 이는 독립변수의 수가 많아질수록 더욱 증가한다
- 이를 보완하여 수정된 결정 계수를 도입했으며, 다중 회귀 에서는 일반적으로 수정 결정 계수의 값을 이용하여 분석 결과를 판단한다.
- 결정 계수의 값이 커지는 것을 보정하기 위해 데이터(표본)의 크기와 독립변수의 개수를 고려하여 계산한 지표이다.
- 수정 결정 계수의 값은 항상 결정 계수 R2보다 작거나 같은 값이다.
- (모든 독립변수가 아니라) 종속변수에 영향을 주는 독립변수만으로 설명되는 분산의 비율이라고 볼 수 있다
'머신러닝 및 딥러닝 > 머신러닝' 카테고리의 다른 글
머신러닝 모델 최적화 - 과적합 (0) | 2023.02.08 |
---|---|
다항회귀이론( + 사이킷런 transformer) (0) | 2023.02.08 |
경사하강법 이론2(+ Feature Scaling) (0) | 2023.02.08 |
경사하강법 이론 (0) | 2023.02.08 |
선형회귀 이론 (1) | 2023.02.07 |