티스토리 뷰

 

[2] 회귀분석

< 회귀분석과 분류분석 >
  회귀분석 분류분석
종속변수 연속형 범주형
예측값
계산방법
실제값으로 예측값의 정확성을 계산 예측의 정확성을 다른 방식으로 계산

 

 

 

 

1) 잔차

: 실제값과 예측값의 차이

-잔차분산 : 잔차(실제값과 예측값의 차이)를 제곱하여 평균낸 것

-그냥분산 : 편차(실제값과 평균의 차이)를 제곱하여 평균낸 것

잔차분산이 크다 잔차분산이 작다
예측이 잘 맞지 않음 예측이 잘 맞음

 

 

 

 

 

2) 최소제곱법

: 잔차분산이 최소가 되게 하는 w, b 등 계수를 추정

-가장 널리 사용되는 추정방법.

 

※ 관계식

-R과 Python에서 회귀분석 모형 설정을 위한 문법

-종속변수(y) ~ 독립변수(x) 형식으로 관계식을 표현

* 종속변수(y)가 먼저 나오는 것에 주의!

관계식 결과분석
from statsmodels.formula.api import ols

# 분석
i = ols(" y ~ x ", data=data).fit()
# 결과
m.summary()

 

 

 

 

 

 

3) R 제곱

-범위: 0 ~ 1

-회귀분석에서 예측의 정확성을 알기 쉽게 판단할 수 있도록 만든 지표 

R 제곱 = 0 R 제곱 = 1
분석결과가 y의 예측에 도움이 안됨 y를 완벽하게 정확히 예측할 수 있음

* 1에 가까울 수록 정확함  => 에타제곱과 결과적으로 동일함

  (회귀분석에서는 R제곱, 분산분석에서는 에타제곱이라고 함) == 상관계수²

 

 

※ R 제곱 읽는 법

"모형이 종속변수의 분산의 ~%를 설명한다."

  ex) R제곱 = 0.3  →  "분산의 30%를 설명한다"

-R제곱은 TSS(분산)에 비해 RSS가 얼마나 작아졌는지를 나타냄.

 (TSS, RSS : 평균 또는 예측에 대한 변산성. 불확실성)

-변산성이 줄었다 => 불확실성이 줄었다 => 설명이 되었다.

 

 

 

 


 

 

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함