티스토리 뷰
[2] 회귀분석
< 회귀분석과 분류분석 > | ||
회귀분석 | 분류분석 | |
종속변수 | 연속형 | 범주형 |
예측값 계산방법 |
실제값으로 예측값의 정확성을 계산 | 예측의 정확성을 다른 방식으로 계산 |
1) 잔차
: 실제값과 예측값의 차이
-잔차분산 : 잔차(실제값과 예측값의 차이)를 제곱하여 평균낸 것
-그냥분산 : 편차(실제값과 평균의 차이)를 제곱하여 평균낸 것
잔차분산이 크다 | 잔차분산이 작다 |
예측이 잘 맞지 않음 | 예측이 잘 맞음 |
2) 최소제곱법
: 잔차분산이 최소가 되게 하는 w, b 등 계수를 추정
-가장 널리 사용되는 추정방법.
※ 관계식
-R과 Python에서 회귀분석 모형 설정을 위한 문법
-종속변수(y) ~ 독립변수(x) 형식으로 관계식을 표현
* 종속변수(y)가 먼저 나오는 것에 주의!
관계식 | 결과분석 |
from statsmodels.formula.api import ols # 분석 i = ols(" y ~ x ", data=data).fit() # 결과 m.summary() |
![]() |
3) R 제곱
-범위: 0 ~ 1
-회귀분석에서 예측의 정확성을 알기 쉽게 판단할 수 있도록 만든 지표
R 제곱 = 0 | R 제곱 = 1 |
분석결과가 y의 예측에 도움이 안됨 | y를 완벽하게 정확히 예측할 수 있음 |
* 1에 가까울 수록 정확함 => 에타제곱과 결과적으로 동일함
(회귀분석에서는 R제곱, 분산분석에서는 에타제곱이라고 함) == 상관계수²
※ R 제곱 읽는 법
"모형이 종속변수의 분산의 ~%를 설명한다."
ex) R제곱 = 0.3 → "분산의 30%를 설명한다"
-R제곱은 TSS(분산)에 비해 RSS가 얼마나 작아졌는지를 나타냄.
(TSS, RSS : 평균 또는 예측에 대한 변산성. 불확실성)
-변산성이 줄었다 => 불확실성이 줄었다 => 설명이 되었다.
'TIL & WIL > 통계분석' 카테고리의 다른 글
통계분석 5일차. (0) | 2023.03.27 |
---|---|
통계분석 4일차 (4). 다중회귀분석 (0) | 2023.02.16 |
통계분석 4일차 (2). 상관분석 (상관계수 / 기울기 / 공분산 / 스피어만 / 켄달) (0) | 2023.02.16 |
통계분석 4일차 (1). 가설검정 (1) | 2023.02.16 |
통계분석 3일차. 독립표본 t 검정/ 효과크기/ 대응표본 t 검정/ 분산분석 (0) | 2023.02.16 |