[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch03. 통계기법의 이해

※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다.

01. 기술통계 - 중요도 중(★★)

1. 데이터 요약

- 데이터의 분포가 가지는 특성을 찾아내서 본격적인 분석 이전에 기본적이 ㄴ특징을 수치적으로 정량화하여 기술한다. 주로 기초 통계량을 산출하여 결과를 도출한다. 탐색적 데이터 분석: 수집된 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것으로 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정이다.

2. 표본추출

- 모집단(연구, 실험의 결과가 일반화된 큰 집단, 정보를 얻고자 하는 관심 대상의 전체집합으로 정의) 표본, 표본추출

- 전수조사와 표본조사

(1) 전수조사: 모집단 전체 대상(인구조사 등)

(2) 표본조사: 모집단에서 표본을 추출하여 조사

- 모집단의 일부가 전체를 대표할 수 있다는 근거가 명확하다면 일부의 표본으로 조사분석을 시행하고 모집단 전체의 분석결과로 사용이 가능하다.

- 표본조사의 장점: 전수조사에 비해 비용 절감, 조사 결과의 신속성, 조사규모가 크지 않기 때문에 심도 있는 조사가능, 관리가 비교적 잘되어 정확성이 높음

- 표본 추출 오차

(1) 과잉 대표: 중복 선택 등의 원인으로 모집단이 반복, 중복된 데이터만으로 규정되는 현상

(2) 최소 대표: 실제 모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상(최대대표라는 현상은 없다)

※ 표본 추출 시 표본의 크기보다는 대표성을 가지는 표본을 추출하는 것이 중요

- 확률 표본추출 기법: 모든 추출단위에 대해 사전에 일정한 추출확률이 주어지는 표본추출 방법, 모든 표본의 추출확률을 사전에 알 수 있다. 표본자료로부터 얻어지는 추정량의 통계적 정확도를 확률적으로 나타낼 수 있다.

(1) 단순무작위 추출: 모집단으로부터 무작위 추출, 독립적 선택으로 편향성을 제거하여 난수를 이용하는 것, 모집단 내의 조사단위수를 파악한 다음 원하는 표본수만큼 난수를 발생시키고 그 수에 해당되는 조사단위를 표본으로 선택하는 방법, 추출 모집단에 대해 사전지식이 많지 않은 경우 시행

(2) 계통 추출: 모집단(N)에서 추출간격(K)을 설정하여 간격 사이에서 무작위로 추출 (ex. K=3이면, 3개마다 하나씩 추출함)

(3) 층화 추출(Stratified): 모집단을 서로 겹치지 않게 여러 층으로 나누어 분할된 층별로 배정된 표본을 단순 임의 추출법에 따라 추출하는 방법이다.

. 특징: 단순무작위추출법에 비해 추정의 정도를 높일 수 있다. 각 층별 추정결과도 얻을 수 있다. 모집단을 효과적으로 층화할 경우 임의표본의 추정량보다 오차가 적게 되어 추정의 정도를 높일 수 있다. 표본의 대표성 제고 및 조사관리가 편리하고, 조사비용이 절감된다.

. 층화변수: 모집단을 몇 개의 층으로 나누려고 할 때 각 추출단위가 어느 층에 속하는지 구분하기 위한 기준이 되는 변수

질적 층화변수와 양적 층화변수가 있음

. 층화변수가 양적 변수인 경우 층의 최적경계점

1. 모집단을 n개의 층으로 나누려면 n-1개의 경계점을 결정

2. 추정값의 분산을 최소화시킬 수 있도록 경계점 결정

. 표본의 배분: 각 층내의 추출단위, 변동의 정도가 크면 늘리고, 비용증가 시 줄임

. 표본 배분 방법: 비례배분법(크기 고려), 네이만배분법(크기와 변동 고려), 최적배분법(비용 최소화)

(4) 군집 추출: 모집단을 차이가 없는 여러 개 군집으로 나누어 군집의 단위의 일부 또는 전체 분석, 모집단에 대한 추출 방법론을 정하기 어려운 경우 사용(사전지식이 많지 않은 경우X), 단순 임의추출에 비해 표본 오차가 증대할 가능성이 있다.

- 비확률 표본추출 기법: 각 추출단위들이 표본에 추출될 확률을 객관적으로 나타낼 수 없는 경우, 모집단 불명확, 탐색적 연구에 사용, 비용, 시간 조사의 편리함

(1) 간편 추출법(편의추출법): 얻어진 표본이 목표모집단을 얼마나 잘 대표하는지 알 수 없으며 통계적 정확성을 평가할 수 없다.

(2) 판단추출법: 조사자 주관적인 판단으로 표본 선정

(3) 할당추출법: 조사목적과 밀접하게 관련된 변수값에 따라 모집단을 부분집단으로 구분하고, 모집단의 부분집단별 구성비율과 표본의 부분집단별 구성비율이 유사하도록 표본을 선정하는 방법이다.

(4) 눈덩이추출법: 접근이 어렵거나 추출틀의 작성이 곤란한 특정한 집단에 대한 조사에서 사용, 해당 집단에 속하는 사람들에게 다른 사람을 소개받아서 조사 진행

3. 확률분포

- 기술통계: 분석에 필요한 데이터를 요약하고 묘사, 설명하는 통계기법

- 추측(추론) 통계: 표본에 내포되어 있는 정보를 이용하여 모집단에 대한 과학적인 추론을 하는 통계기법

- 확률과 확률분포는 모집단에 대한 추측 및 추론이 얼마나 정확한지에 대한 논리적 타당성을 제시하는 도구

- 확률의 개념

. 통계적 현상(불확정 현상을 반복관찰하여 고유의 법칙성을 찾아내는 것이 가능한 현상

. 확률 실험: 같은 조건 아래에서 반복

(1) 확률

. 수학적 확률: 표본공간 S의 각 사건이 일어날 가능성이 동등할 때, 사건 A에 대하여 n(A)/n(S)를 사건 A의 수학적 확률이라고 한다. 이때, n(A)는 사건 A가 일어날 경우의 수, n(S)는 전체 사건에 대한 경우의 수이다.

. 통계적 확률: 일반적인 자연현상이나 사회현상에서 일어날 가능성이 동일한 경우가 많지 않아서 수학적 확률로 구할 수 없는 경우가 대부분이다. 이러한 경우 사건이 일어나는 확률을 상대도수에 의해 추정한다. n회의 시행에서 문제의 사건이 r회 일어났다고 하면 상대도수는 r/n으로 정의할 수 있으며 이와 같이 추정되는 확률을 통계적 확률이라고 한다.

※ 상대도수: 도수분포표에서 도수의 총합에 대한 각 계급의 도수의 비율

(2) 사건: 동일한 상태로 여러 차례 반복할 수 있는 실험이나 관측을 시행이라고 하고, 시행의 결과로써 나타나는 것을 사건이라고 한다. 사건은 개별적으로 발생할 결과일 수도 있고, 몇 가지의 복합된 결과의 집합이 될 수도 있다.

(3) 표본공간: 통계적 실험에서 모든 발생 가능한 실험결과들의 집합

. 표본공간 자체는 전사건, 아무것도 포함하지 않는 사건은 공사건, 하나의 결과를 포함하는 사건은 근원사건이라고 한다.

. 표본공간이 S인 확률실험에서 사건은 S의 부분집합이 된다.

(4) 여집합(사건 A가 발생하지 않을 확률)

(5) 조건부 확률: 사건 B가 일어났다는 조건하에서 다른 사건 A가 일어날 확률

(6) 결합 확률(확률의 곱셈): 사건 A와 B가 동시에 발생하는 확률

(7) 총 확률정리:임의의 사건 B의 확률을 k개의 조건부 확률을 이용해서 구하는 것이다.

. 사전에 표본공간은 상호 배타적인 사건으로 분할적인 사건으로 분할되었다고 하면 임의의 사건 P(B)는 아래와 같이 표현이 가능하다.

표본공간이 상호 배타적인 사건 A1, A2,... Ak로 분할될 때,

(8) 베이지안 정리: 총확률정리를 이용하여 임의의 사건 B의 확률을 k개의 조건부 확률을 이용해 계산하면 베이지안 법칙을 이용하여 표본공간을 분할하는 k개의 상호 배타적인 사건 A1, A2,... Ak에 대한 사후확률을 구할 수 있다.

. P(Ai)는 미리 주어진 사전확률이지만, 사건 B라는 새로운 사건이 발생 시 P(Ai | B)의 확률을 구할 수 있고, 이 확률이 사후 확률이 된다.

. 베이지안 법칙은 사전에 어떤 사건 A에 대한 사전확률이 부여된 상태에서 어떤 사건 B에 관한 정보가 알려진 후, 그 사건 A에 대한 사후확률을 다음 아래와 같이 정리할 수 있다.

표본공간이 상호 배타적인 사건 A1, A2,... Ak로 분할될 때, (하나도 모르겠다)

- 확률 변수

(1) 확률변수: 사건의 시행의 결과를 하나의 수치로 대응시킬 때의 값(확률값)을 의미하며, 일반적으로 대문자 X로 표기한다. ex) 동전 두 개를 던져 앞면이 2개 나오는 횟수를 확률변수 X라고 할 때, 이에 대한 확률은 P(X=2)라고 표기한다.

(2) 확률변수의 종류

. 이산확률변수: 확률변수가 취할 수 있는 값의 수가 유한함(동전, 주사위 등)

. 연속확률변수: 확률변수가 취할 수 있는 값의 수가 무한함((키, 몸무게, 시간 등)

- 확률분포: 확률변수의 개별 값들이 가지는 확률값의 분포

(1) 이산확률분포: 확률변수가 취할 수 있는 값의 수가 유한한 확률분포

. 확률질량함수: 이산확률변수에서 특정값에 대한 확률을 나타내는 함수 f(x) = P(X=x)이다.

(2) 연속확률분포: 확률변수가 취할 수 있는 값의 수가 무한한 확률분포

. 확률밀도함수: 확률 변수의 분포를 나타내는 함수

(3) 확률분포함수(확률 함수): 확률변수가 취할 수 있는 구체적인 값 하나하나를 확률공간산의 확률값으로 할당해 주는 함수

. 이산확률분포함수: 확률변수가 이산적인 확률분포를 가지는 함수

. 연속확률분포함수: 확률변수가 연속적인 확률분포를 가지는 함수

- 확률변수의 기댓값과 분산

(1) 기댓값: 각 확률변수가 특정 값을 가질 확률을 가중치로 확률변수의 결과값을 평균화한 값으로 표시

. 이산확률변수의 기댓값

. 연속확률변수의 기댓값

(2) 기댓값의 성질

. 기댓값의 선형성: 상수 a, b와 확률변수 X에 대해서 다음 식이 성립한다.

. 기댓값의 덧셈법칙: 두 확률변수 X, Y에 대하여 X+Y의 기댓값은 X의 기댓값과 Y의 기댓값을 더한 것과 같다.(두 확률변수가 독립이든, 종속이든 무관하게 항상 성립)

. 기댓값의 곱셈법칙: 두 확률변수 X, Y에 대하여 일반적으로 곱셈법칙이 성립하지 않는다.

하지만, 두 확률변수 X, Y가 독립이면 곱셈법칙이 성립한다.

(3) 분산: 확률분포의 산포도를 나타내는 측도, 기댓값에서 떨어진 거리의 제곱의 기댓값(평균)이며 Var(X)로 표시한다.

. 이산확률변수의 분산

. 연속확률변수의 분산

(4) 분산의 성질

- 이산확률분포의 종류

(1) 베르누이 분포: 결과가 성공 아니면 실패, 두 가지로 귀결되어 나오는 이산확률분포

. 확률질량함수:

. 기댓값 E(X) = p

. 분산 Var(X) = pq

(2) 이항분포: 베르누이 시행을 n번 독립적으로 시행할 때 성공 횟수를 X로 정의한 이산확률분포

. 확률질량함수:

수식은 이제 제외함. 맞출 수 있는 거에 집중하자. 모의고사 풀어보니, 공식을 외워서 풀어야 하는 문제가 많지 않으므로 효율을 고려할 때, 공식을 외워서 풀어야 하는 문제는 포기함.

(3) 다항분포: 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포로, 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의하는 분포

(4) 포아송분포: 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포

. 기댓값과 분산이 동일

. 원고집필 시 원고지 한장당 오타의 수(O)

. 금융상품 가입 상담건수 10회 중 실제 가입이 이루어진 수(X)

(5) 기하분포: 베르누이 시행에서 처음 성공까지 시도한 횟수를 분포화한 이산확률분포의 한 종류이다.

(6) 음이항분포: x번의 베르누이 시행에서 k번째 성공할 때까지 계속 시행하는 실험에서의 확률을 나타내는 이산확률분포이다. 전체 x번의 시행에서 생각해 보면 x-1까지 k-1개의 성공이 있어야 한다. 이 경우 실패의 개수는 (x-1)-(k-1)=x-k가 된다.

(7) 초기하분포: 비복원추출에서 N개중에 n개를 추출했을 때, 원하는 것 k개가 뽑힐 확률을 나타내는 이산확률분포이다.

- 연속확률분포의 종류

(1) 연속균등분포: 분포가 특정 범위 내에서 균등하게 나타나 있는 경우

(2) 지수분포: 사건이 서로 독립적일 때, 일정 시간 동안 발생하는 사건의 횟수가 포아송분포를 따른다면, 다음 사건이 일어날 때까지의 대기시간에 대한 확률이 따르는 분포. 즉, 포아송과정에서 한 개의 사건이 발생할 때까지의 대기시간. 포아송분포는 단위시간당 발생하는 사건의 횟수를 관측한다. 반면 지수분포는 사건이 일어날 때까지의 대기시간을 관측하는데 관심이 있는 것이다. 즉, 지수분포는 대기시간, 포아송분포는 횟수이다.

(3) 정규분포: 가우스 분포라고도 한다. 표본을 통한 통계적 추정 및 가설검정이론의 핵심이 되며, 실제로 우리가 사회적, 자연적 현상에서 접하는 여러 자료들의 분포가 정규분포를 띠게 된다.

. 정규분포는 평균을 중심으로 대칭이며, 종모양(bell-shaped)인 확률밀도함수의 그래프를 띤다.

. 정규분포의 모양과 위치는 평균과 표준편차에 의해 완전히 결정된다.

. 분포의 평균과 표준편차가 어떤 값을 갖더라도, 정규곡선과 X축 사이의 전체 면적은 1이다.

. 정규분포를 가지는 확률변수, 즉 정규확률변수는 평균 주위의 값을 많이 취하며 평균으로부터 좌우로 표준편차의 3배 이상 떨어진 값은 거의 취하지 않는다.

. 정규분포곡선은 X축에 맞닿지 않으므로 확률변수 X가 취할 수 있는 값의 범위는 무한대이다.

(4) 표준정규분포(Z): 평균이 0, 표준편차가 1이 되도록 한 정규분포

(5) 감마분포: 연속확률분포로, 두 개의 매개변수를 받으며 양의 실수를 가질 수 있다. 감마분포는 지수분포나 포아송분포등의 매개변수와 연관이 있는 분포로 포아송과정에서 k개의 사건이 발생할 때까지의 대기시간으로 확률변수 X를 정의할 수 있다.

(6) 카이제곱분포: k개의 서로 독립적인 표준정규확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포(k:자유도) 신뢰구간이나 가설검정에서 많이 사용된다.

(7) 스튜던트 t분포: 정규분포의 평균 측정 시 주로 사용하는 분포. 분포의 모양은 Z-분포와 유사, 자유도:표본크기 n에서 1을 뺀 것, 자유도가 클수록 정규분포에 모양이 수렴된다. 자유도가 1보다 클 때만 스튜던트 t분포에서 기대값은 0이다. (자유도는 자료집단의 변수 중에서 자유롭게 선택될 수 있는 변수의 수를 말한다.)

스튜던트 t분포는 정규분포의 평균 측정 시 주로 사용하는 분포이다. 분포의 모양은 Z-분포와 유사하다. 종모양으로서 t=0에 대하여 대칭을 이루는데 t-곡선의 모양을 결정하는 것은 자유도이다.

(8) F분포: 두 개의 확률 변수 V1, V2의 자유도가 각각 k1, k2이고 서로 카이제곱분포를 따른다고 할 때, 다음 아래와 같이 정의된 확률변수(검정통계량), F검정이나 분산분석 등에 주로 사용

4. 표본분포

표본분포는 크기 n의 확률표본의 확률변수의 분포이다.

- 모집단 분포와 표본분포

(1) 모집단의 모수: 모집단의 특성을 나타내는 특성값

(2) 표본의 통계량: 표본집단의 특성을 나타내는 특성값

- 표본평균의 표본분포: 모집단으로부터 표본을 추출하였을 때 얻을 수 있는 모든 표본평균값을 확률변수로 하는 확률분포이다.

- 표본평균의 표본분포 통계량

(1) 표본평균의 표본분포의 평균: 표본평균 X의 표본분포의 평균은 모집단의 평균과 동일하다.

(2) 표본평균의 표본분포의 분산(표준편차): 모집단의 표준편차가 σ이면 표본분포의 표준편차는 σ /루트 n이라고 정의한다. 동일한 모집단의 표준편차에서 표본의 크기가 커지면 커질수록 표준오차는 점점 줄어든다.

(3) 표준오차: 표본평균 X의 표준편차를 평균의 표준오차 또는 간단히 표준오차라고 한다.

- 중심극한정리: 동일한 확률분포를 가진 독립 확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다. 모집단의 분포가 무엇이든 상관없이 표본의 수가 큰 표본분포들의 표본평균의 분포가 정규분포를 이룬다는 의미이다. 즉, 정규분포는 다시 표준정규분포로 변환이 가능하므로 우리가 알고 있는 표준정규분포의 각종 결과를 이용하여 추정을 할 수 있다.

- 표본평균의 표준화

. k가 1일 때, 표준정규분포상의 확률값: 0.68

. k가 2일 때, 표준정규분포상의 확률값: 0.95

. k가 3일 때, 표준정규분포상의 확률값: 0.997

. 표준화 Z를 통해서 표본 평균을 표준화한 후 표준정규분포표를 이용하여 확률을 찾으면 된다.

- 표본 비율: 표본을 구성하는 n개의 개체 중에서 성공으로 나타나는 개체 수의 비율

- 표본비율의 표본분포: 표본으로 추출될 가능성이 있는 모든 표본들에 대한 표본비율 값의 확률분포, 표본비율의 표준화는 표본평균의 표준화와 동일개념이다.

02. 추론통계 - 중요도 중(★★)

1. 통계적 추론

- 모집단에 대한 어떤 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭

(1) 추정: 표본을 통해 모집단 특성이 어떠한가에 대해 추측하는 과정. 표본평균 계산을 통해 모집단평균을 추측하거나, 모집단 평균에 대한 95% 신뢰구간의 계산과정

(2) 가설검정: 모집단의 실제값이 얼마나 되는가 하는 주장과 관련해서 표본이 가지고 있는 정보를 이용해 가설이 올바른지 그렇지 않은지 판정하는 과정

2. 점추정

- 모수에 대한 모평균이나 모표준편차 등과 같은 추정치를 이에 대응하는 통계량으로 추정하는 것이다.

- 추정량의 선택 기준

(1) 불편성: 표본 통계량의 기댓값이 모수의 실제값과 같을 때 이 추정량은 불편성을 가진다.

(2) 효율성: 추정량 중에서 최소의 분산을 가진 추정량(표준 편차가 작은 추정량)이 가장 효율적이다. > 최소분산불편추정량

(3) 일치성: 표본크기가 증가할수록 좋은 추정값을 제시한다.

(4) 충분성: 추정량이 모수에 대하여 가장 많은 정보를 제공할 때 그 추정량은 충분추정량이 된다.

- 점추정량: 모집단의 특성을 단일값으로 추정(특정)하는 것을 말한다. 대표적인 점추정량으로 표본평균, 표본분산 등이 있으며, 이외에도 단일값으로 표현되는 중앙값 등을 추정량으로 사용하기도 한다. 점추정의 방법으로는 적률방법과 최대우도추정법이 있다.

- 적률 방법(Moment Method)

(1) 적률(Moment): 양수 n에 대해 확률변수 X^n의 기댓값 E(X^n)을 확률변수 X의 원점에 대한 n차 적률이라고 한다.

- 편향(bias): 기대하는 추정량과 모수의 차이. 표본에서 얻어낸 추정량은 모수에 가까울수록 좋다.

- 불편추정량: 편향이 0이 되는 상황의 추정량을 불편추정량이라고 한다. 표본평균은 불편추정량이나 표본분산은 불편추정량이 아니다.

- 평균제곱오차(MSE): E[(점추정량-모수)^2]

- 최대우도점 추정

(1) 우도함수: 결합확률밀도함수를 모수에 대한 함수로 볼 때, 이를 우도함수로 정의

(2) 최대우도추정: 주어진 관찰값을 가장 잘 설명해 주는 추정량을 모수의 추정량으로 하며 이 추정량을 최대우도추정이라 한다. 일반적인 최대우도추정법을 준용하여 미분을 통해 극댓값을 찾는 방법으로 최대우도 추정량을 구한다.

3. 구간추정

점추정은 모집단의 모수를 하나의 값으로 추정해 주는 것이다. 그러나 우리가 아무리 좋은 추정방법을 사용한다고 하더라도 표본을 택하고 이 표본으로부터 계산된 추정값이 목푯값을 정확하게 추정한다고 주장할 수는 없다. 구간 추정 또는 신뢰구간 방법을 적용하면 이러한 부분을 해결할 수 있다.

- 구간추정의 개념: 점추정에 오차의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것이다. 모집단의 특성을 담아내는 구간을 표본자료로부터 산출하는 방법

(1) 일반화:구간의 크기가 작을수록 실제모수를 좀 더 정확하게 추정할 수 있으며 우리가 설정한 구간 안에 모수가 들어갈 확률을 구하여 확인하는 과정이 필요하다.

(2) 신뢰 수준, 유의 수준: 구간추정에 있어서 추정한 구간에 모수가 들어갈 확률. 확률구간에 대해 모수가 들어갈 확률 1-α(0 <α<1) 일 때, 1-α를 신뢰 수준 α를 유의 수준이라 한다.

- 모평균의 구간추정

(1) 모집단의 분산을 알고 있는 경우

신뢰수준	Z-통계량에 의한 신뢰구간
90%
95%
99%

(2) 모집단의 분산을 모르는 경우: 모집단의 표준편차σ를 모를 때는 표본에서 구한 불편추정량 S, 즉 표본의 표준편차를 σ대신 이용한다. 단, 표본의 크기가 작고 모집단의 σ를 모르므로 표본통계량이 정규분포를 따르지 않고 자유도 n-1인 t-분포를 따르므로 t-분포를 이용하여 신뢰구간을 구한다.

신뢰수준	t-분포에 의한 신뢰구간
90%
95%

. t-분포는 자유도가 작을 때에는 정규분포에 비해 넓게 퍼진 모양을 갖지만, 자유도가 클 때에는 정규분포에 거의 근접하게 된다.

. 다시 말해서 모집단의 분포가 정규분포를 이루며, 표준편차 σ가 알려지지 않았을 때에는 t-분포를 사용하는 것이 원칙이나, 표본의 크기가 클 때에는 표본의 표준편차와 모집단의 표준편차의 차이가 작기 때문에 t-통계량 또는 Z-통계량 중 어느 것을 사용해도 비슷한 결과를 얻는다.

- 모분산의 신뢰구간

- 모비율의 신뢰구간

- 신뢰구간 표본 크기의 결정

모비율에 대한 정보가 주어지지 않은 경우 p=1/2로 놓고 표본의 크기를 결정한다. 따라서 아래와 같이 된다.

4. 가설검정

모집단에 대해 어떤 가설을 설정하고 그 모집단으로부터 추출된 표본을 분석함으로써 그 가설이 틀리는지 맞는지 타당성 여부를 결정(검정)하는 통계적 기법이다.

- 검정통계량: 연구자에 의해 설정된 가설은 표본(모집단 전체 X)을 근거로 하여 채택여부를 결정짓게 되는데 이때 사용되는 표본통계량을 검정 통계량이라 정의한다.

- 가설검정: 검정 통계량의 표본분포에 따라 채택여부를 결정짓는 일련의 통계적 분석과정을 가설검정이라 하며 일반적으로 몇 단계의 절차를 거쳐 검정이 수행된다.

- 가설검정의 절차

(1) 가설의 설정: 오류의 허용확률을 정해 놓고 그 기준에 따라 가설의 채택이나 기각을 결정한다.

. 귀무가설: 현재 통념적으로 믿어지고 있는 모수에 대한 주장 또는 원래의 기준이 되는 가설

. 대립가설: 연구자가 모수에 대해 새로운 통계적 입증을 이루어 내고자 하는 가설이다.

(2) 유의 수준 α: 가설검정의 결과로 가설의 채택여부를 결정하게 될 때 우리는 두 가지의 오류를 생각할 수 있다.

. 제1종 오류: 귀무가설이 참일 때 귀무가설을 기각하도록 결정하는 오류(즉, 대립가설을 채택, 무죄인데, 유죄라고 할 경우- 더 중요함)

. 제2종 오류: 귀무가설이 거짓인데 귀무가설을 채택할 오류, 또는 대립가설이 참일 때 귀무가설을 채택하도록 결정하는 오류(즉, 대립가설을 기각, 유죄인데 무죄라고 할 오류)

. 유의 수준: 제1종 오류를 범할 확률의 최대 허용한계를 유의 수준 또는 위험률이라고 하며 가설검정에서 판단의 기준으로 삼고 있다. 유의 수준이 낮을수록 연구자는 귀무가설을 기각하고 자신의 주장에 확신을 가질 수 있다.

. p-value가. 07인 경우 귀무가설을 기각하면 잘못 기각할 확률이. 07이 되고. 03인 경우 귀무가설을 기각하면 잘못 기각할 확률이. 03이 된다. 따라서 전자의 경우보다 후자의 경우 귀무가설을 보다 자신 있게 기각하는 것이다.

. 귀무가설의 기각여부는 p-value와 α의 크기에 달려있다. 즉 p-value가 작을수록 그리고 α의 값이 클수록 귀무가설을 기각할 수 있다.

- 검정통계량 및 표본분포의 결정: 모수에 대한 정보는 표본에 함축되어 있다. 따라서 표본을 통하여 가설의 채택여부를 결정짓게 되는데, 이때 사용되는 표본 통계량을 검정통계량이라 한다. 또한 유의 수준에 따른 귀무가설의 기각역을 결정하기 위해서, 귀무가설이 참일 때 검정 통계량의 확률분포를 알아야만 하며, 알려져 있지 않을 때에는 통계학의 극한 이론에 근거하여 근사적인 분포가 정해져야 한다.

- 기각역의 설정: 표본에서 계산된 통계량이 가설로 설정한 모집단의 성격과 현저한 차이가 있을 경우에는 모집단에 대해 설정한 귀무가설을 기각하게 된다.

. 이때 귀무가설(대립가설 X)을 기각하게 되는 검정통계량의 범위를 기각역이라 하며, 기각역의 경곗값을 임계치라 한다.

- 검정통계량의 계산

(1) 의사결정: 표본의 관측치로부터 계산된 검정통계량의 값이 기각역에 속하면 귀무가설을 기각하며(즉, 대립가설을 채택) 그렇지 않으면 귀무가설을 채택(즉, 대립가설을 기각)한다.

(2) 통계량의 계산과 임계치의 비교: 임계치가 결정되면 표본에서 얻은 통계량이 기각영역에 속하는지 채택영역에 속하는지를 결정해야 한다.

(3) p-value: 주어진 자료로서 귀무가설을 기각하려고 할 때 필요한 최소의 유의 수준을 의미하며, 다른 용어로 유의성 확률 또는 관측된 유의 수준이라고도 한다. p-값이 계산되는 경우에는 유의 수준 α와 비교하여 다음과 같은 결정을 할 수 있다.

p-value < α : 귀무가설을 기각

p-value > α : 귀무가설을 채택

- 표본의 평균 검정: 단일 표본에서 모평균에 대한 검정은 표본평균을 이용한다.

- 두 독립표본의 평균차이 검정

- 대응표본의 평균차이 검정:실험단위를 동질적인 쌍으로 묶은 다음, 각 쌍의 실험단위에서 랜덤 하게 선택하여 두 처리를 적용하고, 각 쌍에서 관측값의 차를 이용하여 두 모평균의 차에 관한 추론 문제를 다룰 수 있다. 이와 같은 방법을 대응비교 또는 쌍체비교라고 한다.

- 단일표본 모분산에 대한 가설검정(χ^2 검정) - 카이제곱 검정 :통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미 있게 다른지의 여부를 검정하기 위해 사용되는 검정방법이다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용한다.

- 두 모분산비에 대한 가설 검정(F검정): 모평균과 모분산을 모르는 경우 두 정규모집단에서 각각 표본크기가 n1, n2이며, 표본분산이 s1^2, s2^2이라고 할 때 두 모분산의 비율에 대한 가설검정을 말한다.

※ 참고서적

서명	이기적 빅데이터분석기사 필기2022
저자	나홍석, 배원성, 이건길, 이혜영 공저, 고려사이버대학교AI, 빅데이터 연구소
출판사	영진닷컴

저작자표시 비영리 동일조건 (새창열림)

'데이터분석과 AI > 빅데이터 분석기사' 카테고리의 다른 글

[빅데이터분석기사 필기] Part03. 빅데이터 모델링-Ch02. 분석기법 적용 (1)	2023.04.07
[빅데이터분석기사 필기] Part03. 빅데이터 모델링-Ch01. 분석 모형 설계 (0)	2023.04.06
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch02. 데이터 탐색 (0)	2023.04.02
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch01. 데이터 전처리 (0)	2023.04.01
[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch03. 데이터 수집 및 저장 계획 (0)	2023.03.30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

IT에서 일하는 비(非) 개발자 이야기

[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch03. 통계기법의 이해

01. 기술통계 - 중요도 중(★★)

1. 데이터 요약

2. 표본추출

3. 확률분포

4. 표본분포

02. 추론통계 - 중요도 중(★★)

1. 통계적 추론

2. 점추정

3. 구간추정

4. 가설검정

'데이터분석과 AI > 빅데이터 분석기사' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch03. 통계기법의 이해

01. 기술통계 - 중요도 중(★★)

1. 데이터 요약

2. 표본추출

3. 확률분포

4. 표본분포

02. 추론통계 - 중요도 중(★★)

1. 통계적 추론

2. 점추정

3. 구간추정

4. 가설검정

'데이터분석과 AI > 빅데이터 분석기사' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역