티스토리 뷰
※ 그동안 통계적 예측이 충분히 사용되지 않은 이유?
- 타당성에 대한 환상으로, 스스로 생각하는 판단의 정확성과 실제 정확성의 괴리가 있음
- 판단을 직접 내릴 때 얻는 만족감이 보상으로 작용함
- 통계적 지식의 부족과 반감
- 인간의 실수에는 관대하나 통계는 완벽하기를 기대하여 오류에 지나치게 실망함
- 예측에서 단순성과 복잡성에 대한 오해가 있음
☆★☆통계분석을 통해서 할 수 있는 일들☆★☆
1 | 대상의 특성을 수치로 표현하기 | -관찰 가능한 특성은 무엇이든 수치로 표현할 수 있음 -양적/질적인 특성 모두 수치화가 가능 -수치가 객관적이지 않아도 가능함 (ex: 만족도) -수치들을 잘 요약하여 효과적으로 정보를 전달 |
2 | 부분을 통해 전체를 추측하기 | -대부분 우리는 대상의 일부만 관찰가능함. (ex: 여론조사, 면접) -현실에서는 우연과 불확실성이 존재 -부분을 통해 전체를 합리적으로 추측하는 것이 중요함. |
3 | 비교하기 | Q. 대상들 사이에 어떤 차이가 있는가? Q. 그 차이는 정말로 존재하는 것인가? Q. 그 차이가 대상들 자체의 특성에 기인한 것인가? |
4 | 예측하기 | -한 대상의 여러 가지 특성들은 서로 관련을 맺고 있다. -쉽게 알 수 있는 다른 특성들로부터, 알기 어려운 어떤 특성을 예측할 수 있다. -미래에 대한 예측만을 의미하는 것은 아님. |
5 | 영향력을 미치는 변수 찾기 | -대상의 한 가지 특성은 여러 가지 특성으로부터 영향을 받음. -어떤 특성은 다른 특성보다 직접적으로 변화시키기 쉬움 -목적으로 하는 특성에 영향이 큰 변수를 분별함 -해당 변수를 높이거나 낮추어 목적으로 하는 특성을 조절. |
6 | 지수(index) 만들기 | -직접적으로 관찰하기 어려운 특성들은 관찰 가능한 다른 특성들과 연관을 맺는다. (ex: 만족도, 사랑, 유전자 등) -관찰 가능한 특성들을 바탕으로 관찰하기 어려운 특성 지표화 가능 -대상 자체가 실재하지 않아도, 이 지표를 통해 의사결정이 쉬워짐 |
7 | 비슷한 것끼리 모으기 | -비슷한 것을 모아서 하나의 집단으로 인식하면 편리한 경우가 있음 -대상의 다양한 특성들을 바탕으로 비슷한 것들끼리 모을 수 있음 |
● 타당도와 신뢰도
-타당도(validity): 측정하고자 하는 것을 잘 측정함
-신뢰도(reliability): 측정 결과가 일정함
Q1. 신뢰도와 타당도 중 어떤 것을 더 높여야 하는가?
ㅁ 타당도를 정확히 알기 어려운 경우 => 신뢰도 높이기
ㅁ 타당도는 알 수 있지만 금액이 큰 경우 => 타당도를 어느 정도 양보
ㅁ 하나만 잘 걸리면 되는 경우 => 신뢰도를 낮추는게 도움이 될 수도 있음
Q2. 신뢰도는 높은데 타당도가 낮은 경우
ㅁ 어려움.. 방법 자체를 바꾸어야 함.
Q3. 타당도는 높은데 신뢰도가 낮은 경우
ㅁ 쉬움. 측정을 반복하여 많이 시행하면 신뢰도가 올라감.
Q4. 분산과 신뢰도의 관계성
ㅁ 분산: 얼마나 퍼져 있는냐에 대한 지표
ㅁ 신뢰도: 측정이 얼마나 일관되었느냐에 대한 결과
1. 확률분포
: 확률 변수가 특정한 값을 가질 확률을 나타내는 함수.
ex) 주사위의 숫자가 나올 확률 (일반 주사위/ 사기도박 등)
1) 이상확률분포 : 가질 수 있는 값이 정수 (주사위 등)
2) 연속확률분포 : 가질 수 있는 값이 정수 (키, 몸무게 등)
-세상에는 수많은 확률 분포가 존재
-통계학의 근본 가정 중 하나.
: 데이터는 어떤 확률분포에서 비롯되며, 데이터가 나온 확률분포를 추론하는 것이 통계분석.
-분석을 쉽게 하기 위해서 수학적으로 단순화, 추상화된 확률분포들을 많이 사용함.
2. 베르누이 분포
-동전 던지기와 같이 둘 중에 한 가지의 결과만 나올 수 있는 경우.
-P(x=1) = P / P(x=0) = Q = 1-P
3. 이항분포
-0과 1만 나오는 시행을 n번 했을 때 합계의 분포
ex) 고객의 구매율이 30%일 때, 100명의 고객이 방문하면 그 중에 몇 명이 구매를 할까?
-베르누이 분포는 n=1인 경우의 이항분포.
4. 이항분포의 확률질량함수와 누적분포함수
-확률질량함수 : 정확히 30명이 구매할 확률 (binom.pmf(k=30, n=100, p=0.3)
-누적분포함수 : 0~30명이 구매할 확률의 합. (binom.cdf(k=30, n=100, p=0.3)
5. 정규분포
-연속확률분포
-뮤와 시그마에 따라 모양이 달라진다.
1) 뮤의 확률이 가장 높고, 멀어질 수록 확률이 낮아짐
2) 뮤를 기준으로 좌우대칭
3) 시그마가 클수록 넓게 퍼짐
-정규분포라고 불리지만 정규적이거나 정상적인 것과는 무관
-가우시안 분포라고도 함
6. 중심극한정리
-어떤 확률분포에서 값을 n개 독립적으로 뽑아서 더하여 합계s를 구할경우
-n이 커질수록, s의 분포는 정규분포와 점점 비슷해짐
ex) 주사위는 1~6이 고르게 나오지만, 주사위 10번을 돌려서 합계를 구하면 35근처에서 웃돎
-이항분포: 베르누이 분포에서 값을 n개 뽑아 더한 것과 같음
이항분포의 n이 커지면 정규분포와 비슷해짐(뮤 = np, 시그마 = npq)
[1] 기술통계
※ 기술통계의 지표
-중심경향치 : 데이터가 어디에 몰려있는가?
a.k.a. 평균, 중간값
-분위수 : 데이터에서 각각의 순위가 어느 정도인가?
-변산성 측정치 : 데이터가 어떻게 퍼져있는가?
범위, IQR / 분산, 표준편차
1) 평균
ⓐ n개의 값이 있을 때, 그 합계를 n으로 나눈 것
ⓑ 평균은 극단값에 따라 영향을 크게 받음.
2) 중간값
ⓐ 값들을 크기 순으로 정렬했을 때 중간에 위치한 값
ⓑ "중위수"라는 표현도 ㅁ낳이 사용
ⓒ 값이 짝수개 있을 경우에는 가운데 두 값의 평균을 구함
ⓓ 장점 : 극단값의 영향을 받지 않음
3) 사분위수
3-1) IQR(사분위간 범위) : 사분위수 간의 거리 ('3분위수 - 1분위수'의 값)
4) 백분위수
-퍼센트 : 그만큼의 덩어리를 말함.
-퍼센타일 : 덩어리가 끊어지는 해당 위치를 말함.
-최솟값 : 0퍼센타일
-중간값 : 50퍼센타일
-최대값 : 100퍼센타일
5) 상자수염그림 (box-whisker plot)
-제1사분위수~제3사분위수를 상자로 표현
-중간값은 상자의 가운데 굵은 선으로 표시
-최소값과 최대값은 수염으로 표시
-수염의 최대 길이는 IQR의 1.5배까지, 넘어가는 경우는 점으로 표시
6) 편차
: 값 - 평균
-편차가 크면 값이 넓게 분포, 편차가 작으면 값이 모여있음.
7) 커널 밀도 추정
: 데이터의 밀도를 추정하여 그린 곡선
-계단형으로 출력되는 히스토그램의 단점을 보완해줌.
-추세 파악이 더 쉬움.
[2] 모집단과 표본
-모집단 : 연구의 관심이 되는 집단 전체
-표본 : 특정 연구에서 선택된 모집단의 부분집합
-표집: 모집단에서 표본을 추출하는 절차. "표본추출"이라고도 함.
-대부분의 경우 집단 전체를 전수조사하기는 어려우므로 무작위로 표본을 추출하여 모집단에 대해 추론.
-파라미터 : 어떤 시스템의 특성을 나타내는 값
-모수 : 모집단의 파라미터 : 모집단의 특성을 나타내는 값.
1) 통계량
: 표본에서 얻어진 수로 계산한 값 =통계치
※ '모집단의 통계량'이라는 표현은 없음. (=> 모집단의 모수)
※ '표본의 모수' 같은 말도 없음. (=> 표본의 통계량)
-추론통계: 표본 통계량을 일반화하여 모집단에 대해 추론하는 것
'TIL & WIL > 통계분석' 카테고리의 다른 글
통계분석 4일차 (3). 회귀분석 (잔차 / 최소제곱법 / R제곱) (0) | 2023.02.16 |
---|---|
통계분석 4일차 (2). 상관분석 (상관계수 / 기울기 / 공분산 / 스피어만 / 켄달) (0) | 2023.02.16 |
통계분석 4일차 (1). 가설검정 (1) | 2023.02.16 |
통계분석 3일차. 독립표본 t 검정/ 효과크기/ 대응표본 t 검정/ 분산분석 (0) | 2023.02.16 |
통계분석 2일차. 표집/ 추정/ 통계적 가설 검정/ AB테스팅/ 독립표본 t-검정 (0) | 2023.02.14 |