티스토리 뷰
Q. pairplot을 그리는 이유?
- scatter를 그리게 되면 시간이 아주 오래걸린다.
- 샘플만 추출해서 시각화를 진행해야 조금 빠르게 시각화를 출력해볼 수 있다.
- 실,골,플이 잘 나뉘는지 시각화
※ pairplot 의 파라미터. seaborn.pairplot(data, *, hue=None, hue_order=None, palette=None, vars=None, x_vars=None, y_vars=None, kind='scatter', diag_kind='auto', markers=None, height=2.5, aspect=1, corner=False, dropna=False, plot_kws=None, diag_kws=None, grid_kws=None, size=None) |
📝 상관계수
상관계수는 -1~1 사이의 값을 갖습니다.
구매 빈도가 높으면 구매 금액도 함께 높아지는 양의 상관이 있다는 것을 상관계수로 확인할 수 있습니다.
피어슨 상관 계수 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전.
ko.wikipedia.org
r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계, r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계, r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계, r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계, r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계, r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계 |
Q. 상관 계수를 볼 때 주의해야 할 점이 있다면? 어떤 점이 있을까요?
이상치(outliers)에 민감하다. | 상관 계수는 이상치(outliers)에 매우 민감합니다. 이상치가 있을 경우 상관 계수의 값이 크게 왜곡될 수 있으므로, 이상치를 먼저 확인하고 제거한 후 상관 계수를 계산하는 것이 좋습니다. |
선형적인 상관관계만을 고려한다. | 상관 계수는 두 변수 간의 선형적인 상관관계만을 측정합니다. 만약 비선형적인 관계가 있는 경우, 상관 계수를 계산하는 것이 의미가 없을 수 있습니다. |
인과관계와 혼동하지 말아야 한다. |
상관 계수는 두 변수 간의 관계를 나타내기 때문에, 두 변수 사이에 인과관계가 있는지는 알려주지 않습니다. 따라서 상관 계수를 해석할 때는 반드시 인과관계와 혼동하지 말아야 합니다. |
샘플 크기에 따라 결과가 달라질 수 있다. |
상관 계수는 샘플의 크기에 따라 결과가 달라질 수 있습니다. 일반적으로 샘플의 크기가 작을 경우에는 상관 계수가 왜곡될 가능성이 높습니다. |
다중공선성(multicollinearity)에 주의해야 한다. |
두 변수 사이에 강한 상관관계가 있는 경우에는 다중공선성이 발생할 수 있습니다. 이 경우에는 회귀분석 등 다른 방법을 사용하여 문제를 해결해야 합니다. |
'TIL & WIL > Machine Learning' 카테고리의 다른 글
0501. Scikit-learn API기초 / DecisionTree (1) | 2023.03.13 |
---|---|
머신러닝 분류 (2) (0) | 2023.03.09 |
머신러닝 분류 (1) (0) | 2023.03.07 |
비즈니스 데이터 분석 (2) (1) | 2023.03.07 |
비즈니스 데이터 분석 (1) (0) | 2023.03.07 |