티스토리 뷰

Q. pairplot을 그리는 이유?

  • scatter를 그리게 되면 시간이 아주 오래걸린다.
  • 샘플만 추출해서 시각화를 진행해야 조금 빠르게 시각화를 출력해볼 수 있다.
  • 실,골,플이 잘 나뉘는지 시각화
※ pairplot 의  파라미터.

seaborn.pairplot(data, *, hue=None, hue_order=None, palette=None, vars=None, x_vars=None, y_vars=None, kind='scatter', diag_kind='auto', markers=None, height=2.5, aspect=1, corner=False, dropna=False, plot_kws=None, diag_kws=None, grid_kws=None, size=None)

 

 

 

 

 

 

📝 상관계수

상관계수는 -1~1 사이의 값을 갖습니다.
 
구매 빈도가 높으면 구매 금액도 함께 높아지는 양의 상관이 있다는 것을 상관계수로 확인할 수 있습니다.
 

피어슨 상관 계수 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전.

ko.wikipedia.org

r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계

 

Q. 상관 계수를 볼 때 주의해야 할 점이 있다면? 어떤 점이 있을까요?

이상치(outliers)에 민감하다. 상관 계수는 이상치(outliers)에 매우 민감합니다.
이상치가 있을 경우 상관 계수의 값이 크게 왜곡될 수 있으므로,
이상치를 먼저 확인하고 제거한 후 상관 계수를 계산하는 것이 좋습니다.
선형적인 상관관계만을 고려한다. 상관 계수는 두 변수 간의 선형적인 상관관계만을 측정합니다.
만약 비선형적인 관계가 있는 경우, 상관 계수를 계산하는 것이 의미가 없을 수 있습니다.
인과관계와
혼동하지 말아야 한다.
상관 계수는 두 변수 간의 관계를 나타내기 때문에,
두 변수 사이에 인과관계가 있는지는 알려주지 않습니다.
따라서 상관 계수를 해석할 때는 반드시 인과관계와 혼동하지 말아야 합니다.
샘플 크기에 따라
결과가 달라질 수 있다.
상관 계수는 샘플의 크기에 따라 결과가 달라질 수 있습니다.
일반적으로 샘플의 크기가 작을 경우에는 상관 계수가 왜곡될 가능성이 높습니다.
다중공선성(multicollinearity)에
주의해야 한다.
두 변수 사이에 강한 상관관계가 있는 경우에는 다중공선성이 발생할 수 있습니다.
이 경우에는 회귀분석 등 다른 방법을 사용하여 문제를 해결해야 합니다.

 

 

 

 

 

 

'TIL & WIL > Machine Learning' 카테고리의 다른 글

0501. Scikit-learn API기초 / DecisionTree  (1) 2023.03.13
머신러닝 분류 (2)  (0) 2023.03.09
머신러닝 분류 (1)  (0) 2023.03.07
비즈니스 데이터 분석 (2)  (1) 2023.03.07
비즈니스 데이터 분석 (1)  (0) 2023.03.07
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함