본문 바로가기
데이터분석과 AI/빅데이터 분석기사

[빅데이터분석기사 필기] Part04. 빅데이터 결과 해석-Ch01. 분석모형 평가 및 개선

by 우공80 2023. 4. 7.
728x90

빅데이터분석기사

 

※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다.

01. 분석모형 평가 - 중요도 상(★)

1. 평가 지표

- 지도학습-분류모델 평가 지표 - 오차행렬을 통해 평가한다.

 (1)~(5) 오차행렬(혼동행렬), 정확도, 정밀도, 재현율, F1 Score는 아래 포스팅으로 대체한다. 

 

https://woogong80.tistory.com/67

 

Confusion Matrix(혼동 행렬)과 평가지표 이해하기

Confution Matrix란? 오늘 정리해 볼 것은 Confusion Matrix입니다. 시스템이 분류 문제를 얼마나 헷갈려하는지 알 수 있는 표라고 Confusion Matrix인데, 이 표를 보고 있는 사람도 혼동이 와서 혼동행렬이라

woogong80.tistory.com

 (1) ROC(Receiver Operating Characteristic) 곡선: FPR(False Positive Rate)이 변할 때 민감도인 TPR(True Positive Rate)이 어떻게 변화하는지를 나타내는 곡선이다. 임계값을 1~0 범주 이내 값으로 조정하면서 FPR에 따른 TPR을 계산하면서 곡선을 그린다. TPR과 FPR값이 0.5인 기본 모델 위에 ROC가 위치할 경우 성능이 기본 모델보다 나음을 뜻한다.

FPR = FP/(FP+TN) 실제 False 중에 False로 예측한 비율

TPR = TP/(TP+FN) 실제 True 중에 True로 예측한 비율 = Recall

- 지도학습-회귀모델 평가 지표

 (1) SSE(Sum Squared Error): 실제값과 예측값의 차이를 제곱하여 더한 값

 (2) MSE(Mean Squared Error): 실제값과 예측값의 차이의 제곱에 대한 평균을 취한 값(평균제곱 오차)

 (3) RMSE: MSE에 루트를 취한값

 (4) MAE(Mean Absolute Error): 실제값과 예측값의 차이의 절대값을 합한 평균값

 (5) 결정계수 R^2: 회귀모형이 실제값에 얼마나 잘 적합하는지에 대한 비율

 (6) Adjusted R^2: 다변량 회귀분석에서 독립변수가 많아질수록 결정계수가 높아지는 것을 보완

 (7) MSPE, (8) MAPE, (9) RMSLE 생략, (10) AIC, (11) BIC 생략

- 비지도학습-군집분석 평가지표: 실측자료에 라벨링이 없으므로 모델에 대한 성능평가가 어렵다. 아래와 같은 성능 평가 지표를 참고한다. 

 (1) 실루엣 계수: 군집에 속한 요소들 간 거리들의 평균, 실루엣 지표가 0.5보다 크면 적절한 군집모델

 (2) Dunn Index: 군집 간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모로 하는 지표, Dunn Index값은 클수록 좋다. 

2. 분석모형 진단

- 정규성 가정: 데이터가 정규분포를 따르는지를 검정

 (1) 중심극한정리: 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론

 (2) 정규성 검정 종류

  . 샤피로-윌크 검정: 표본수 2천 개 미만에 적합

  . 콜모고로프 스미르노프 검정: 표본수 2천 개 초과인 경우 적합

  . Q-Q 플롯: 데이터 셋이 정규분포를 따르는지 판단하는 시각적 분석 방법으로 표본수(n)가 소규모일 경우 적합

- 잔차 진단: 잔차의 합은 0이며 잔차는 추세, 특정 패턴을 가지고 있지 않다.

 (1) 잔차의 정규성 진단: 신뢰구간 추정과 가설검증을 정확하게 하기 위해 Q-Q Plot과 같은 시각화 도표를 통해 정규분포와 잔차의 분포를 비교한다. 

 (2) 잔차의 등분산성 진단: 

 (3) 잔차의 독립성 진단: 자기 상관의 여부를 판단, 시점 순서대로 그래프를 그리거나 더빈-왓슨 검정으로 패턴이 없다면 독립성을 충족한다고 할 수 있다. 만일 독립성이 위배가 된다면 시계열 분석을 통해 회귀분석을 진행해야 한다. 

3. k-폴드 교차검증

- 과적합 방지를 위한 기법

- 전체 데이터 셋을 k개의 서브셋으로 분리하여 그중 k-1개를 훈련데이터로 사용하고 1개의 서브셋은 테스트데이터로 사용하는 것을 중복 없이 병행 진행하여 최종 모델 성능을 평가한다. 

- 홀드아웃기법: 데이터를 학습데이터/테스트데이터로 분리하지 않고, 학습데이터/검증데이터/테스트데이터로 분리하는 방법. 데이터 셋 크기가 작을수록 데이터 나누는 방식에 따라 모델의 성능 추정에 영향을 미칠 수 있다.

4. 적합도 검정

- 데이터가 가정된 확률에 적합하게 따르는지, 즉 데이터 분포가 특정 분포함수와 얼마나 맞는지를 검정하는 방법이다.

- 적합도 검정이란 범주형 변수에 관한 분석방법이므로 T검정은 해당되지 않는다.

- 카이제곱 검정: 기대값과 관측값을 이용한 방법으로 k개의 범주별로 나뉜 관측치들과 이와 동일한 범주의 가정된 분포 사이의 적합도를 검정한다.

- 콜모고로프 스미르노프 검정: 관측된 표본분포와 가정된 분포사이의 적합도를 검사하는 누적분포함수의 차이를 이용한 검정법. 연속형 데이터에도 적용가능

 

 

02. 분석모형 개선 - 중요도 하()

1. 과대적합 방지

- 정규화, 드롭아웃 등을 활용하여 적절한 복잡도를 가진 모델을 자동으로 탐색한다. 

 . 드롭아웃: 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법, 학습을 진행할 때 시간이 오래 걸리는 단점이 있다.

- 가중치 감소: 학습과정에서 큰 가중치에 대해서는 큰 페널티를 부과하여 가중치의 절대값을 가능한 작게 만든다. 

 (1) L2 규제: 손실함수에 가중치에 대한 L2 노름(norm)의 제곱을 더한 페널티를 부여하여 가중치 값을 비용함수 모델에 비해 작게 만들어 낸다. 손실함수가 최소가 되는 가중치 값인 중심 점을 찾아 큰 가중치를 제한하는데 람다로 규제의 강도를 크게 하면 가중치는 0에 가까워진다.

  . 회귀 모델에서 L2규제를 적용한 것이 릿지(Ridge) 모델이다.

 (2) L1 규제: L2규제의 가중치 제곱을 절대값으로 바꾸는 개념, 손실함수에 가중치의 절대값인 L1 노름을 추가 적용하여, 희소한 특성 벡터가 되어 대부분의 특성 가중치를 0으로 만든다. 

  . 회귀 모델에서 L1규제를 적용한 것이 라쏘(Lasso) 모델이다.

- 편향 분산 트레이드오프: 과대적합과 과소적합 사이의 절충점을 찾는다.

2. 매개변수 최적화

- 확률적 경사 하강법(SGD): 최적의 매개변수 값을 찾기 위해 매개변수에 대한 손실함수의 기울기를 이용한다. 손실함수의 기울기를 따라 조금씩 아래로 내려가다 최종적으로 손실함수가 가장 작은 지점에 도달하도록 하는 알고리즘이다.

- 데이터 전체를 선택하는 배치 경사 하강법과 비교하면 랜덤으로 선택한 하나의 데이터로만 계산하는 단순하고 명확한 구조가 장점이다. 

- 모멘텀: 확률적 경사 하강법에 속도 개념인 기울기 방향으로 힘을 받으면 물체가 가속되는 관성 물리법칙을 적용

  . 속도항에 기울기 값이 누적되고, 누적된 값이 가중치 갱신에 영향을 주면서 이 기울기 값으로 인해 최적점 수렴이 가능하다. 

- AdaGrad: 개별 매개변수에 적응적으로 학습률을 조정하면서 학습을 진행하는 알고리즘. 첫 부분에서는 크게 학습하다가 최적점에 가까울수록 학습률을 점차 줄여가며 조금씩 작게 학습시킨다. 

- Adam: 모멘텀과 AdaGrad를 결합한 방법론, 학습률, 일차 모멘텀 계수, 이차 모멘텀 계수의 3가지 초매개변수들을 설정한다. 

- 초매개변수(하이퍼파라미터) 최적화: 뉴런의 수, 배치크기, 학습률 등 사람이 직접 설정

 (1) 학습률: 기울기 방향으로 얼마나 빠르게 이동할지를 결정, 학습률이 작으면 학습 시간이 길어지고, 학습률이 커지면 발산하여 학습이 제대로 이루어지지 않을 수 있다. 

 (2) 미니배치 크기: 전체 학습 데이터를 주어진 배치 크기로 나눈 것. 미니배치 크기가 크면 병렬연산 구조를 사용할 때 효과적일 수 있으며, 크기가 작으면 더 많은 가중치 업데이트를 할 수가 있다.

 (3) 훈련 반복 횟수(Epoch): 전체 훈련데이터 셋이 신경망을 통과한 횟수, 학습 횟수

 (4) 이터레이션(Iteration): 하나의 미니배치를 학습할 때 1 Iteration으로 1회 매개변수 업데이트가 진행된다. 

 (5) 은닉층의 개수: 은닉층 수가 많아질수록 특정 훈련데이터에 더 최적화시킬 수 있다. 모든 은닉층들의 뉴런의 개수를 동일하게 유지하는 것이 같은 은닉층 개수에 뉴런의 개수를 가변적으로 하는 것보다 효과적. 첫 번째 은닉층에 있는 뉴런의 개수가 입력층에 있는 뉴런의 개수보다 큰 것이 효과적인 경우가 많다. 

3. 분석모형 융합

- 앙상블 학습: 여러 가지 분석 예측 모형들을 만들고 해당 예측모형들을 결합하여 최종적인 하나의 예측모형을 만드는 방법

 (1) 장점: 균형적인 결과를 얻는다. 변동성 및 과적합의 여지가 줄어든다.

- 결합분석모형: 두 종류 이상의 결과변수를 동시에 분석할 수 있는 방법으로 결과 변수 간의 유의성, 관련성을 설명할 수 있다.

4. 최종모형 선정

- 회귀모형에 대한 주요 성능평가지표:SSE, R^2, MAE, MAPE 등

- 분류모형에 대한 주요 성능평가지표: 특이도(재현율의 반대), 정밀도, 재현율, 정확도

- 비지도학습 모형에 대한 주요 성능평가지표

 (1) 군집분석: 군집타당성지표

 (2) 연관분석: 지지도와 신뢰도가 모두 최소한도보다 높은 것으로 평가하며 일반적으로 최소 지지도를 정한 뒤에 이에 대한 이하를 버리고 그중에 신뢰도가 어느 정도 높은 결과들을 가져온다. 

 

 

 

※ 참고서적

서명 이기적 빅데이터분석기사 필기2022
저자 나홍석, 배원성, 이건길, 이혜영 공저, 고려사이버대학교AI, 빅데이터 연구소
출판사 영진닷컴

 

728x90

댓글