본문 바로가기
데이터분석과 AI/빅데이터 분석기사

[빅데이터분석기사 실기][작업형3] 정규성 검정(Shapiro-Wilk Test)

by 우공80 2023. 5. 18.
728x90

 


 
Shapiro-Wilk 검정은 데이터 샘플의 정규성을 평가하는 데 사용되는 통계 테스트입니다.

Shapiro-Wilk 검정은 정규성을 가정하여 표본 데이터와 기댓값 간의 상관관계를 기반으로 검정 통계량을 계산합니다. 정규성에서 관측된 편차를 우연히 얻을 확률을 나타내는 p-값을 생성합니다. p-값이 선택한 유의 수준(예: 0.05) 보다 작으면 데이터가 정규 분포에서 크게 벗어났다는 것을 나타냅니다.
 
이때 귀무가설(H0)은 "데이터가 정규분포를 따른다." 대립가설(H1)은 "데이터가 정규분포를 따르지 않는다."입니다.
데이터 분석에서 데이터의 정규성이 기본적인 가정이므로, 이것을 깨는 것(증명하는 것)이 대립가설로 정해집니다.
 
앞서 배운 t검정과 반대인 느낌적인 느낌을 가지고 있어서, 혼돈이 올 수 있습니다. .
 
※ 참고자료: 귀무/대립가설 설정은 이제 더 이상 헷갈리면 인간이 아님 - 가설검정과 설정의 틀 -

 

귀무/대립가설 설정은 이제 더 이상 헷갈리면 인간이 아님 - 가설검정과 설정의 틀 -

가설검정의 정체에 대한 이야기 편에서 약속한 귀무가설, 대립가설 설정 방법에 관한 이야기의 계속. 일단, 마구 섞어쓰는 용어에 대해서 먼저 이야기한다면, Null Hypothesis는 귀무가설, Alternative H

recipesds.tistory.com

① 귀무가설은 검정전과 검정 후가 다르지 않은 것을 귀무가설로 한다. 그러니까, 의미 없는 행위를 하는 것이므로 귀무가설은 기각되는 것이 좋다.
② 귀무가설이란 관습적이고 보수적인 주장, 차이가 없다, 0이다 등의  연구자가 타파하고자 하는 주장을 말하고, 대립가설이란 우리가 적극적으로 입증하려는 주장, 차이가 있음을 통계적 근거를 통해 입증하고자 하는 주장을 말한다.
③ 귀무가설은 무죄추정의 원칙을 의미한다. 그러니까, 연구자가 유죄를 주장하여 본인의 주장이 맞다고 주장하는 가설이 대립가설인 것이다.
④ 귀무가설이란 직접 검증의 대상이 되는 가설로 연구자가 부정하고자 하는 가설이고, 대립가설이란 귀무가설에 반대되는 사실로  연구자가 주장하고자 하는 가설이다. 
⑤ 연구자는 귀무가설을 기각하고 싶어한다 
⑥ 귀무가설은 우리가 증명하고자 하는 가설의 반대되는 가설, 효과와 차이가 없는 가설을 의미하며 우리가 증명 또는 입증하고자 하는 가설, 효과와 차이가 있는 가설을 대립가설이라고 한다.
⑦ 일반적으로 믿어지는 사실을 귀무가설로 설정하고, 그것을 부정하는 가설을 대립가설로 설정한다. 
 
아래는 간단한 python 코드 예제입니다.

 

※ 문제: 주어진 데이터가 정규분포를 따르는지 검정하세요

from scipy import stats

data = [75, 83, 81, 92, 68, 77, 78, 80, 85, 95, 79, 89]

statistic, p_value = stats.shapiro(data)

print('statistic: ',statistic)
print('p-value: ',p_value )

t='기각한다. 데이터가 정규분포를 따르지 않는다.'
f='채택한다. 데이터가 정규분포를 따른다.'

print('귀무가설을 ',t if p_value<=0.05 else f)

※ 추가 내용 (2023.6.23) : 표본의 수가 5000이 넘는 경우 아래와 같은 Warning이 발생합니다. 

C:\Users\ehman\anaconda3\lib\site-packages\scipy\stats\morestats.py:1681: UserWarning: p-value may not be accurate for N > 5000.
  warnings.warn("p-value may not be accurate for N > 5000.")

이럴 때는  anderson 검정을 해야 합니다. 아래 DataManim 예제를 참고하였습니다.

https://www.datamanim.com/dataset/97_scipy/scipy.html

 

사이파이 튜토리얼 — DataManim

사이파이 튜토리얼 토트백, 브리프 케이스, 백팩 홍보합니다 ㅎㅎ 무신사, 네이버 평점 4.9!! 25% 할인 쿠폰 문의는 단톡방 들어오셔서 해주세요 프록시엘 홈페이지 프록시엘 인스타 시험준비 단

www.datamanim.com

 

※ 위 내용은 "빅데이터 분석기사 실기 준비를 위한 캐글 놀이터" 를 따라가며 공부한 내용입니다.

https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr

 

Big Data Certification KR

빅데이터 분석기사 실기 (Python, R tutorial code)

www.kaggle.com

 

728x90

댓글