TIL & WIL/통계분석
통계분석 4일차 (4). 다중회귀분석
니츄
2023. 2. 16. 17:03
[3] 다중회귀분석
: 독립변수가 2개 이상인 회귀분석
-R과 Python 관계식에서 ' + '로 변수를 구분 (더하는거 아님)
1) 통계적 통제
-독립변수 x와 상관관계가 높은 요소 z가 존재할 경우
-z가 종속변수 y에 미치는 영향이 x의 기울기에 간접 반영될 수 있음
1 | 실험적 통제 | 데이터에서 z를 일정하게 유지하여 z의 영향을 제거 (실험적 통제를 하기에 제한적인 상황이 많음 ex: 북극곰크기 알아보기 실험) |
2 | 통계적 통제 | z를 모형에 독립변수로 함께 포함하여, x의 기울기에 z의 영향이 간접반영되지 않도록 함 |
2) 표준화
- 다중회귀분석에서 독립변수는 단위가 다 다름
=> 종속변수에 대한 영향력을 비교하기 어려움
=> 변수의 단위제거 : 표준화
=> 상대적인 영향력 비교 가능
-표준화를 하면 평균 = 0, 표준편차 = 1 이 됨.
※ 표준화 관계식
- scale 함수를 이용하여 표준화 가능
ex) 연속 독립변수 X₁, X₂를 이용하여 회귀분석을 할 경우 |
from statsmodels.formula.api import ols i = ols(" Y ~ scale(X₁) + scale(X₂) ", data = data).fit( ) |
* 범주형 독립변수는 표준화하지 않음 !!
ex) 등수로 바꿀 경우 |
from statsmodels.formula.api import ols i = ols(" Y ~ X₁.rank( ) + X₂.rank( ) ", data = data).fit( ) |
장점 : 너무 튀는 숫자가 있을 때 완화시켜줌 단점 : 원래 값을 알 수 없음, 1등보다 잘하거나, 꼴등보다 못하면 예측. |
※ 결과 해석 예시