Shapiro-Wilk 검정은 데이터 샘플의 정규성을 평가하는 데 사용되는 통계 테스트입니다.
Shapiro-Wilk 검정은 정규성을 가정하여 표본 데이터와 기댓값 간의 상관관계를 기반으로 검정 통계량을 계산합니다. 정규성에서 관측된 편차를 우연히 얻을 확률을 나타내는 p-값을 생성합니다. p-값이 선택한 유의 수준(예: 0.05) 보다 작으면 데이터가 정규 분포에서 크게 벗어났다는 것을 나타냅니다.
이때 귀무가설(H0)은 "데이터가 정규분포를 따른다." 대립가설(H1)은 "데이터가 정규분포를 따르지 않는다."입니다.
데이터 분석에서 데이터의 정규성이 기본적인 가정이므로, 이것을 깨는 것(증명하는 것)이 대립가설로 정해집니다.
앞서 배운 t검정과 반대인 느낌적인 느낌을 가지고 있어서, 혼돈이 올 수 있습니다. .
※ 참고자료: 귀무/대립가설 설정은 이제 더 이상 헷갈리면 인간이 아님 - 가설검정과 설정의 틀 -
① 귀무가설은 검정전과 검정 후가 다르지 않은 것을 귀무가설로 한다. 그러니까, 의미 없는 행위를 하는 것이므로 귀무가설은 기각되는 것이 좋다.
② 귀무가설이란 관습적이고 보수적인 주장, 차이가 없다, 0이다 등의 연구자가 타파하고자 하는 주장을 말하고, 대립가설이란 우리가 적극적으로 입증하려는 주장, 차이가 있음을 통계적 근거를 통해 입증하고자 하는 주장을 말한다.
③ 귀무가설은 무죄추정의 원칙을 의미한다. 그러니까, 연구자가 유죄를 주장하여 본인의 주장이 맞다고 주장하는 가설이 대립가설인 것이다.
④ 귀무가설이란 직접 검증의 대상이 되는 가설로 연구자가 부정하고자 하는 가설이고, 대립가설이란 귀무가설에 반대되는 사실로 연구자가 주장하고자 하는 가설이다.
⑤ 연구자는 귀무가설을 기각하고 싶어한다
⑥ 귀무가설은 우리가 증명하고자 하는 가설의 반대되는 가설, 효과와 차이가 없는 가설을 의미하며 우리가 증명 또는 입증하고자 하는 가설, 효과와 차이가 있는 가설을 대립가설이라고 한다.
⑦ 일반적으로 믿어지는 사실을 귀무가설로 설정하고, 그것을 부정하는 가설을 대립가설로 설정한다.
아래는 간단한 python 코드 예제입니다.
※ 문제: 주어진 데이터가 정규분포를 따르는지 검정하세요
from scipy import stats
data = [75, 83, 81, 92, 68, 77, 78, 80, 85, 95, 79, 89]
statistic, p_value = stats.shapiro(data)
print('statistic: ',statistic)
print('p-value: ',p_value )
t='기각한다. 데이터가 정규분포를 따르지 않는다.'
f='채택한다. 데이터가 정규분포를 따른다.'
print('귀무가설을 ',t if p_value<=0.05 else f)
※ 추가 내용 (2023.6.23) : 표본의 수가 5000이 넘는 경우 아래와 같은 Warning이 발생합니다.
C:\Users\ehman\anaconda3\lib\site-packages\scipy\stats\morestats.py:1681: UserWarning: p-value may not be accurate for N > 5000.
warnings.warn("p-value may not be accurate for N > 5000.")
이럴 때는 anderson 검정을 해야 합니다. 아래 DataManim 예제를 참고하였습니다.
https://www.datamanim.com/dataset/97_scipy/scipy.html
※ 위 내용은 "빅데이터 분석기사 실기 준비를 위한 캐글 놀이터" 를 따라가며 공부한 내용입니다.
https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr
'데이터분석과 AI > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터분석기사 실기][작업형3] 일원배치법(One-Way ANOVA) (0) | 2023.05.20 |
---|---|
[빅데이터분석기사 실기][작업형3] 상관계수 (1) | 2023.05.20 |
[빅데이터분석기사 실기][작업형3] t검정(대응표본, 독립표본, 단일표본) (0) | 2023.05.18 |
[빅데이터 분석기사 필기] 제6회 필기 시험 합격 후기 (0) | 2023.04.21 |
[빅데이터분석기사 필기] Part04. 빅데이터 결과 해석-Ch02. 분석결과 해석 및 활용 (0) | 2023.04.17 |
댓글