티스토리 뷰

 

[1] 상관분석

 

1) 상관계수

- 범위 : -1 ~ 1

-두 변수의 연관성을 파악하기 위해 사용함.

   ex) 주가와 금 가격의 관계 등

-우상향 또는 우하향하는 단조적 관계를 표현 

-복잡한 비단조적 관계는 잘 나타내지 못함 

< 상관계수 해석하기 >
부호 + 두 변수가 같은 방향으로 변화
(하나가 증가하면 다른 하나도 증가)
- 두 변수가 반대 방향으로 변화
(하나가 증가하면 다른 하나는 감소)
크기 0 두 변수가 독립.
한 변수의 변화로 다른 변수의 변화를 예측하지 못함
1 한 변수의 변화와 다른 변수의 변화가 정확히 일치

* 상관계수가 낮다고 해서 관계가 없는 것은 아님 !!

 

 

 

 

 

 

2) 기울기

< 기울기와 상관계수 비교하기 >
기울기 빨리 올라갈 경우 늦게 올라갈 경우
상관계수 상관계수 높음 (기울기 상관x) 상관계수 낮음

* 기울기는 상관계수와 다른 개념임

 

 

 

 

 

 

3) 공분산

- X의 편차와 Y의 편차를 곱한 것의 평균

  (X=Y이면 분산과 같음)

우상향하는 추세인 경우 + 로 커짐 우하향하는 추세인 경우 - 로 커짐

 

 

 

 

 

 

 

4) 피어슨 적률 상관계수

-범위 : -1 ~ 1

-공분산을 두 변수의 표준편차로 나눔.

-가장 대표적인 상관계수

-선형적인 상관계수를 측정.

 

 

 

 

 

 

 

5) 스피어만 상관계수 (= 순위 상관계수)

pg.corr ( X, Y, method='spearman' )

- 실제 변수값 대신 그 서열을 사용하여 피어슨 상관계수를 계산.

-표현 : 한 변수의 서열이 높아지면 다른 변수의 서열도 높아지는지?

-두 변수의 관계가 비선형적이나 단조적일 때 사용

  ex) 행복과 소득의 상관관계 표현(곡선 상승)

 

 

 

 

 

 

 

 

6) 켄달 상관계수

pg.corr ( X, Y, method='kendall' )

-모든 사례를 짝지어 X의 대소관계와 Y의 대소관계가 일치하는지 확인

  ex) 소득이 증가하면 행복지수도 올라가는가? (소득 1, 5, 10, 20인 사람 각각 짝지어 비교)

       => 짝의 관계가 True면 1, False면 -1 

       => 모든 관계의 점수 합 / 모든 관계의 수  =  상관계수

-모든 데이터끼리 짝을 지어야하기 때문에 데이터가 적을 때 사용.

 

 

 

※ 상관과 인과

 상관관계 data.corr( )

 : 상관관계가 있다고 반드시 인과관계가 있는 것은 아님 !!!

- 제3 변인의 존재

  ex) 범죄발생건수 & 종교시설 수의 상관관계 有,  그러나 사실 인구가 많아지면 다 증가함.

- 이질적인 집단들의 합 (심슨의 역설)

- 극단치(outliers)

  극단치 有 => 존재하지 않는 상관관계가 나타남, 존재하는 상관관계가 포착되지 못함

 

 

 

 


 

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함