티스토리 뷰

 

 

 

 

 

 

더보기

 

 

 

※ p-value에 영향을 주는 요소들

 - 관찰된 통계량이 귀무가설에서 멀리 떨어져 있으면 p-value가 작아짐

 - 표본의 크기가 크면 p-value가 작아짐.

 

 

 

※ 통계적 유의함

: "통계적으로 유의하다"  =  통계적 가설검정에서 귀무가설을 기각

-통계적 유의함은 가치 판단을 위한 조건들 중의 일부일 뿐임.

ex) 환자의 수명을 평균적으로 하루 연장시켜주는 치료제는 통계적으로 유의, 하지만 가격 10억.

- 동일한 관계의 변수라도 표본이 크면 p-value가 작아지고, 통계적으로 유의하게 됨.

   => 어떠한 관계가 있다고 주장하기에 표본의 크기가 충분하다는 것으로 이해할 수 있음

 

 

 

※ 비모수 검정

- 모집단에 대한 가정을 하지 않는 검정

  * 평균에 대한 가설검정에서는 표집분포가 t 분포를 따른다고 가정

  * 모집단이 정규분포와 다르고, 표본이 작으면 이 가정이 잘 성립하지 않음

- 주로 중간값에 대한 검정

- 순서형 데이터 또는 이상값이 있는 경우에 유용

- 모수 검정에 비해 통계적 검정력이 낮음 (2종 오류의 가능성이 큼)

 

 

 

 


 

 

[1] 독립표본 t-검정

 

1) 독립표본 t 검정 순서도

 

2) 검정력

- 유의수준(α): 귀무가설이 참일 때, 기각하는 1종 오류의 확률

- β: 귀무가설이 거짓일 때, 기각하지 못하느 2종 오류의 확률

- 검정력(1-β): 귀무가설이 거짓일 때, 이를 올바르게 기각할 확률

-보통 검정력은 0.8 이상을 요구

-표본의 크기가 크면 증가

-분석 결과에 나오는 검정력은 모수가 통계량과 같다는 가정 아래 계산됨

 

 

3) 맨-휘트니 U  검정

-독립표본 t 검정에 대응하는 비모수 검정방법

-귀무가설: 두 집단의 모집단은 같다

-맨-휘트니 U 검정 = 윌콕슨 순위합 검정 (≠ 윌콕슨 부호순위 검정)

* t 검정은 모수검정이고, 모수에 대한 여러 가정들이 존재

  => 데이터가 많으면 이런 가정들을 충족하기 때문에 별 문제는 없음.

 

 

 


 

 

 

[2] 효과 크기

 :  관찰된 현상의 크기를 나타내는 방법

* 분산을 이용하는 방법과 평균차이를 이용하는 방법이 있음.

 

 

1) 에타 제곱 η²

계산식 코드 import pingouin as pg
pg.compute_effsize(X₁, X₂, eftype='eta-square')

: 분산을 이용한 효과크기 표현 방법  (범위 : 0~100% = 0~1사이)

- 전체 SS = (X - 전체평균)² 의 합계

- 처치 SS = (집단평균 - 전체평균)² 의 합계

- SS : 편차제곱 합

에타 제곱 = 1 에타 제곱 = 0
- 집단 간 차이만 있고 집단 내 차이는 없음
  (ex: 한국입맛 일본입맛)
- 실험 조건에 따라 모든 것이 달라짐
- 실험 조건이 같으면 결과도 같음
  (ex: 대조군 데이터 3,3,3  실험군 데이터 3,3,3)
- 집단 간 차이는 없고 집단 내 차이만 있음
- 실험 조건에 따라 아무 것도 달라지지 않음
- 같은 실험조건에도 서로 다름
  (ex: 대조군 데이터 1,2,3   실험군 데이터 1,2,3)

 

 

2) 코헨의 d

계산식 코드 import pingouin as pg
pg.compute_effsize(X₁, X₂, eftype='cohen')

- 두 집단의 평균차이를 데이터의 표준편차로 나눈 것.

- (X₁ - X₂) / S

- 평균 차이의 크기를 알기 쉽게 나타낸 것

 

※ 코헨의 d에서 파생된 효과크기

글래스의 델타: 대조군의 표준편차를 사용 헷지의 g: 작은 표본에서 나타나는 코헨의 d이 편향을 보정
pg.compute_effsize(X₁, X₂, eftype='glass') pg.compute_effsize(X₁, X₂, eftype='hedges')

 

 

3) 비모수 검정의 효과 크기

3-3. Common Language Effect Size (CLES)

 - A,B 두 집단에서 무작위로 값을 하나씩 뽑았을 때

 - A집단에서 뽑힌 값이 B집단에서 뽑힌 값보다 클 확률

계산식 코드 pg.mwu(a, b)  
-항상 a가 b보다 클 확률을 구함

 

 

 

 


 

 

 

 

[3] 대응표본 t-검정

 

1) 대응표본

: 두 집단의 자료를 쌍으로 묶을 수 있을 때

-두 집단의 자료를 쌍으로 묶어야 하기 때문에, 독립표본과는 달리 두 집단의 자료 갯 수가 동일해야 함.

-독립표본 t-검정 : 평균의 차이를 비교

-대응표본 t-검정 : 차이의 평균을 비교

=> 내용은 똑같으나, 신뢰구간이 달라짐.

  독립표본 t-검정 대응표본 t-검정
평균 pg.ttest(X₁, X₂) pg.ttest(X₁, X₂, paired=True)
비모수 pg.mwu(X₁, X₂) pg.wilcoxon(X₁, X₂)

 

2) 윌콕슨 부호순위 검정

- 대응표본 t 검정에 대응하는 비모수 검정

- 귀무가설 : 두 집단의 차이의 중간값은 0이다

 

 

 

 


 

 

 

[4] 분산분석

 : 집단 간 차이가 크다면 집단 내 분산에 비해 집단 간 분산이 커질 것

-모집단이 정규분포를 따르거나, 각 집단의 표본크기가 충분히 크면 집단 간 분산/ 집단 내 분산의 비율은 F분포를 따름

  ( F = 집단 간 차이 / 집단 내 차이 )

-이를 통해 "모든 집단들의 평균이 같다"는 귀무가설을 검정할 수 있음

-귀무가설을 기각할 경우, "적어도 한 집단의 평균은 다르다"는 대립가설을 채택.

 

1) 등분산성

-분산분석은 집단별 분산이 같아야 함

-집단간 분산이 다를 경우(이분산), 별도의 보정이 필요함

-등분산성은 Levene 검정으로 확인할 수 있음.

  1. 귀무가설: 집단 간 분산이 같다

  2. p < 유의수준 => 귀무가설 기각 => 집단 간 분산이 다름

Python 분산분석 코드 설명
등분산성 검정 pg.homoscedasticity ( dv='price', group='model', data=df ) Levene의 등분산성 검정
귀무가설: 집단별 분산이 같다
p < 0.05
결론: 집단별로 분산이 다르다
분산분석
(등분산일 경우)
pg.anova( dv='price', between='model', data=df, detailed=True)  
분산분석
(이분산일 경우)
pg.welch_anova( dv='price', between='model', data=df,detailed
=True)
귀무가설: 모든 집단의 평균이 같다
p = 0.028187
p < 0.05
결론: 집단별로 평균이 다르다

 * 집단이 2개일 때는 t-검정의 p와 분산분석의 p가 같음

   => 분산분석을 해도 되지만 굳이 할 필요 없음

 

2) 다중비교

: 분산분석은 한 번에 여러 집단을 비교할 수 있음 (독립표본 t검정은 두 집단만 가능)

-집단이 k개일 경우 필요한 비교의 횟수 : k( k-1 ) / 2

 

 

 

3) FWER (Familywise Error Rate)

- 다중 비교를 할 경우 적어도 한 번 1종 오류가 발생할 확률

ex) 세 집단이 모 집단에서 평균이 모두 같은 경우 유의수준 5%인 비교를 세 번 해서,
   세 번 모두 1종 오류를 피할 확률(독립적이라고 가정) : 95% * 95% * 95% = 약 86%

   => 적어도 한 번 1종 오류가 발생할 확률(FWER)은 14%

-비교를 많이 할수록 FWER은 증가함.

 

 

 

4) 사후검정

  1. FWER을 통제하기 위해 분산분석을 먼저 실시
  2. 분산분석 결과가 통계적으로 유의하면( p < α ) 사후검정을 실시
  3. 여러 집단 중 통계적으로 유의한 차이가 나는 집단을 식별
  4. 사후검정에서도 α를 조절하여 FWER이 커지지 않도록 제어
각 집단의 분산이 같은 경우 각 집단의 분산이 다른 경우
Tukey HSD Games-Howell 검정
pg.pairwise_tukey(dv='값', between='집단명', data=data) pg.pairwise_gameshowell(dv='값', between='집단명', data=data)

* 조금 더 디테일한 검정   ex) '모든 집단은 같다' 기각 후, '집단 중 같지 않은 집단을 식별'하기 위해 사후검정 실시.

 

 

 

 

이후 내용은.. 포기했습니다 ^^,,;;

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함