본문 바로가기
데이터분석과 AI/빅데이터 분석기사

[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch01. 데이터 전처리

by 우공80 2023. 4. 1.
728x90

빅데이터분석기사

 

※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다.

01. 데이터 정제 - 중요도 하(★)

1. 데이터에 내재된 변수의 이해

- 데이터 관련 정의: 데이터, 단위(Unit), 관측값, 변수, 원자료(Raw Data)

 (1) 단위(Unit): 관찰되는 항목 또는 대상

- 데이터의 종류

 (1) 단변량 자료: 자료의 특성을 대표하는 특성 변수가 하나

 (2) 다변량 자료: 자료의 특성을 대표하는 특성 변수가 둘 이상

 (3) 질적 자료: 정성적 또는 범주형 자료, 명목자료, 서열자료 등 이질적 자료로 분류

  . 명목자료: 측정대상이 범주나 종류에 대해 구분되는 것을 수치 또는 기호로 분류되는 자료(ex. 전화번호 국번)

  . 서열자료: 명목자료와 비슷하나, 수치와 기호가 서열을 나타내는 자료(ex. 기록경기의 순위, 학점 등급 등)

 (4) 수치자료: 정량적 또는 연속형 자료, 숫자의 크기에 의미를 부여할 수 있는 자료

  . 구간자료: 명목자료, 서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해서 변수 간의 관계가 산술적인 의미(더하기 빼기 가능)가 있음.(ex 온도)

  . 비율자료: 명목자료, 서열자료, 구간자료의 의미를 다 가지는 자료. 수치화된 변수에 비율의 개념을 도입 가능(ex. 무게 등)(모든 사칙연산 가능)

 (5) 시계열자료: 일정한 시간간격 동안에 수집된 시간개념이 포함되어 있는 자료(ex. 일별 주식 가격)

 (6) 횡적자료: 횡단면자료라고도 하며, 특정 단일 시점에 여러 대상으로부터 수집된 자료

 (7) 종적자료: 시계열자료와 횡적 자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료

- 데이터의 정제

 (1) 데이터 정제의 과정: 다양한 매체로부터 데이터를 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터의 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정이 필요

  . 데이터의 수집, 변환(ETL, 일반화, 정규화), 교정(결측치, 이상치 제거), 통합 과정

 (2) 데이터 정제의 전처리: 데이터 저장 전의 처리과정, 데이터, 입수 방법 결정 및 저장방식 선정

 (3) 데이터 정제의 후처리: 저장 후의 처리, 데이터 품질관리 등의 과정 포함

 

2. 데이터 결측값 처리

- 결측치는 데이터가 없음을 의미, 결측치 임의 제거 시 분석 데이터 직접 손실로 분석에 필요한 유의 수준 데이터 수집에 실패할 가능성이 발생, 결측치를 임의로 대체 시 데이터 편향이 발생하여 분석 결과의 신뢰성 저하 가능

- 결측 데이터의 종류

 (1) 완전 무작위 결측(MCAR): 어떤 변수상에서 결측데이터가 다른 변수와 아무런 연관이 없는 것, 대규모 데이터에서 단순 무작위 표본 추출을 통해 처리 가능하다.

 (2) 무작위 결측(MAR): 변수상의 결측데이터가 관측된 다른 변수와 연관이 있지만, 비관측된 값들과는 연관되지 않은 경우

 (3) 비 무작위 결측(NMAR): 결측 데이터 자체가 결측여부(이유)와 관련이 있는 것\

- 결측값 유형의 분석 및 대치: 일반적으로 결측, 무응답을 가진 자료를 분석할 때는 완전 무작위 결측하에 처리한다. 즉, 불완전한 자료는 무시하고 완전히 관측된 자료만을 표준적 분석을 시행한다. 

- 이런 결측치가 존재하는 데이터를 이용한 분석은 효율성, 복잡성, 편향을 고려해야 한다.

 (1) 단순 대치법: 결측치를 MCAR 또는 MAR로 판단하고 처리하는 방법

  . 완전분석, 평균 대치법, 회귀 대치법, 단순확률 대치법(Hot-deck), 최근접 대치법 등이 있다.

  . 사회적 조사방법론의 경우 조사단위 대치법, 콜드덱 대치, 이월 대치법도 있다.

 (2) 다중 대치법: 단순 대치법을 복수로 시행하여 통계적 효율성 및 일치성 문제를 보완하기 위하여 만들어진 방법

  . 1단계 - 대치 단계

  . 2단계 - 분석 단계

  . 3단계 - 결합 단계

 

3. 데이터 이상값 처리

- 이상치(Outlier) : 정상의 범주에서 벗어난 값

- 이상치의 종류 및 발생 원인

 (1) 이상치의 종류

  . 단변수 이상치

  . 다변수 이상치

 (2) 이상치의 발생원인

  . 비자연적 이상치 발생: 입력실수, 측정오류, 실험오류, 의도적 이상치, 자료처리오류(복수 개의 데이터셋에서 데이터를 추출, 조합하여 분석 시, 분석 전의 전처리에서 발생하는 에러), 표본오류

  . 이외의 이상치들은 자연적 이상치라고 한다.

- 이상치의 문제점

 (1) 기초(통계적) 분석 결과의 신뢰도 저하

 (2) 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하, 특히 이상치가 비무작위성(Non-Randomly)을 가지고 나타나게 되면 데이터의 정상성(Normality) 감소를 초래하며 이는 데이터 자체의 신뢰성 저하로 연결될 가능성이 있다.

- 이상치의 탐지

 (1) 시각화를 통한 방법(비모수적, 단변량의 경우)

  . 상자수염그림, 줄기-잎 그림, 산점도 그림

 (2) Z-Score를 통한 방법(모수적 단변량 또는 저변량의 경우)

  . 정규화를 통해 특정 threshold를 벗어난 경우를 이상치로 판별한다.

 (3) 밀도기반 클러스터링 방법: 비모수적 다변량의 경우 군집 간의 밀도를 이용하여 특정 거리 내의 데이터 수가 지정 개수 이상이면 군집으로 정의, 정의된 군집에서 먼 거리에 있는 데이터는 이상치로 간주

 (4) 고립 의사나무 방법: 의사결정나무 기반으로 정상치의 단말노드보다 이상치의 노드에 이르는 길이 더 짧은 성질을 이용함.

 

02. 분석 변수 처리 - 중요도 중(★)

1. 변수 선택

통계적 분석 결과의 신뢰성을 위해서 기본적으로 데이터와 이를 특정 짓는 변수는 많으면 좋다. 하지만 분석모형을 구성하고 사용하는 데 지속적으로 필요 이상의 많은 데이터를 요구할 수 있으므로 변수 선택이 필요하다.

- 회귀분석의 사례: 더 적은 변수를 사용해서 동일한 설명력이 나온다면 변수의 효율적 선택이 필요하다.

- 변수별 모형의 종류

 (1) 전체모형:모든 독립변수를 사용

 (2) 축소모형: 변수의 개수를 줄여서 얻은 모형

 (3) 영 모형: 독립변수가 하나도 없는 모형

- 변수의 선택방법

 (1) 전진선택법

  . 영 모형에서 시작, 종속변수와 단순 상관계수의 절댓값이 가장 큰 변수를 분석 모형에 포함

  . 부분 F검정(F test)을 통해 유의성 검증 시행, 유의한 경우는 가장 큰 F통계량을 가지는 모형을 선택, 유의하지 않은 경우에는 변수선택 없이 과정을 중단

  . 한번 추가된 변수는 제거하지 않는다.

 (2) 후진 선택법, 후진 소거법

  . 전체모델에서 시작, 모든 독립변수 중 종속변수와 단순 상관계수의 절댓값이 가장 작은 변수를 분석 모형에서 제외

  . 부분 F검정을 통해 유의성 검증을 시행, 유의하지 않은 경우는 변수를 제거하고, 유의한 경우는 변수제거 없이 중단

 (3) 단계적 선택법

  . 전진 선택법을 통해 가장 유의한 변수를 모형에 포함 후 나머지 변수들에 대해 후진 선택법을 적용하여 새롭게 유의하지 않은 변수들을 제거한다. 유의한 설명변수가 존재하지 않을 때까지 과정을 반복한다. 

 

2. 차원 축소

- 자료의 차원: 분석하는 데이터의 종류의 수(변수의 수)

- 차원의 축소: 변수의 양을 줄이는 것

- 차원축소의 필요성

 (1) 복잡도의 축소: 분석시간의 증가(시간복잡도)와 저장변수양의 증가(공간복잡도)를 고려 시 동일한 품질을 나타낼 수 있다면 효율성 측면에서 데이터 종류의 수를 줄여야 한다.

 (2) 과적합 방지: 차원이 증가하면 과적합 발생 가능성이 높음. (오적합 방지가 아님)

 (3) 해석력의 확보: 차원이 작은 간단한 분석 모델일수록 내부구조 이해가 용이하고 해석이 쉬워진다.

 (4) 차원의 저주: 차원이 증가하면서 성능이 저하되는 형상

- 차원축소의 방법

 (1) 요인분석(Factor Analysis): 다수의 변수들 간의 관계(상관관계)를 분석하여 공통차원을 축약하는 통계 분석 과정

  . 요인분석의 목적: 변수 축소(다수의 변수들의 정보 손실을 억제하면서 소수의 요인으로 축약), 변수 제거, 변수 특성 파악, 타당성 평가, 파생 변수, 

  . 요인분석의 특징: 독립변수, 종속변수 개념 없이 기술통계에 의한 방법 이용

  . 요인분석의 종류: 주성분 분석, 공통요인 분석 특이값 분해(SVD),  음수 미포함 행렬분해(NMF) / 공통요인 분석은 분석 대상 변수들의 기저를 이루는 구조를 정의하기 위한 요인분석 방법으로 변수들이 가지고 있는 공통 분산만을 이용하여 공통 요인만 추출하는 방법

 (2) 주성분 분석(PCA)

  . 주성분 분석의 개념: 하나 또는 복수 개의 특징(주성분)을 찾는 것

  . 서로 연관성이 있는 고차원공간의 데이터를 선형연관성이 없는 저차원으로 변환하는 과정을 거친다. 직교변환

  . PCA방법의 이해 : 데이터 하나하나에 대한 성분을 분석하는 것이 아니라, 여러 데이터들이 모여 하나의 분포를 이룰 때, 이 분포의 주성분을 분석

  . PCA의 특정: 차원 축소에 폭넓게 사용, 전적 분포 가정의 요구가 없다. 가장 큰 분산의 방향들이 주요 중심 관심으로 가정, 본래의 변수들의 선형 결합으로만 고려, 본래의 변수들이 서로 상관이 있을 때만 가능, 스케일링에 대한 영향이 크다. 

 (3) 특이값 분해(SVD): m x n 크기의 행렬 M에 대해 mxm 크기의 직교행렬, mxn 크기의 대각행렬, nxn크기의 직교행렬로 분해 가능하다. 적당한 k(특이값)을 이용해 원래 행렬 A와 비슷한 정보력을 가지는 차원을 생성, 즉, 몇 개의 특이값을 가지고 충분히 유용한 정보를 유지할 수 있는 차원을 생성해 낼 수 있다.(차원 축소)

 (4) 음수 미포함 행렬분해(NMF): 음수를 포함하지 않은 행렬 V를 음수를 포함하지 않은 두 행렬의 곱으로 분해

3. 파생변수의 생성

- 파생변수: 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수, 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있다. 특정상황에만 유의미하지 않게 대표성을 나타나게 할 필요가 있다. ex) 과목별 평균, 표준 점수, 백분위 등급 등

- 요약변수: 수집된 정보를 분석에 맞게 종합한 변수

- 요약변수 vs. 파생변수

 (1) 요약변수는 단순 집계(상품별 구매금액), 파생변수는 주관적 변수 개념(주 구매상품)

 (2) 요약변수 처리 시의 유의점: 처리 방법에 따라 결측치의 처리 및 이상값 처리에 유의, 구간화 적용 시 정구간이 아닌 의미 있는 구간을 찾도록 해야 한다.

 (3) 파생변수 생성 및 처리의 유의점: 보편적이고 전 데이터 구간에 대표성을 가지는 파생변수 생성 필요(요약변수의 특징이 아님)

  . 특징 추출, 한 레코드 내의 값들을 결합, 다수 필드 내에 시간 종속적인 데이터 선택

4. 변수 변환

- 데이터를 분석하기 좋은 형태로 바꾸는 작업(데이터 전처리 과정 중 하나)

- 변수 변환의 방법

 (1) 범주형 변환: 연속형 변수 > 범주형 변수

 (2) 정규화: 데이터가 가진 스케일이 심하게 차이나는 경우, 그 차이를 그대로 반영하기보다는 상대적 특성이 반영된 데이터로 변환하는 것이 필요하다.

  . 일반 정규화: 수치의 범위를 같은 범위로 변환해서 사용

  . 최소-최대 정규화:가장 일반적인 방법, 최소값 0, 최대값 1, 나머지는 0~1 사이 값으로 변환

 (3) Z-점수 정규화: 이상치 문제를 피하는 정규화 전략: 평균을 0에 맞춘다.

  . 로그변환: 수치에 로그를 취한 값을 이용, 로그를 취했을 때 분포가 정규분로에 가깝게 되는 경우가 있음. 국가별 수출액, 사람의 통증정도 수치화 등

 (4) 역수변환: 어떤 변수를 데이터 분석에 그대로 사용하지 않고 역수를 사용하면 선형적인 특성을 가지게 되어 의미를 해석하기 쉬워지는 경우 ( X~1/X)

 (5) 지수변환: X~X^n (상용로그가 아님)

 (6) 제곱근 변환: X~ Root( X)

 (7) 분포형태별 정규분포 변환 (왼쪽으로 치우칠수록 값을 크게, 오른쪽으로 치우칠수록 값을 작게)

변수변환 전 분포 사용 변수 변환식 변수변환 후 분포
좌로 치우침 X^3 정규분포화
좌로 약간 치우침 X^2
우로 약간 치우침 Root(X)
우로 치우침 ln(X)
극단적 우로 치우침 1/X

 (8) 데이터의 축소(차원축소)

5. 불균형 데이터 처리

주로 범주형 반응 변수(종속 변수)의 각 클래스가 갖고 있는 데이터의 양에 차이가 큰 경우, 클래스 불균형이 있다고 한다.

 

- 불균형 데이터의 문제점: 단순히 우세한 클래스를 택하는 모형의 정확도가 높아지므로 모형의 성능 판별이 어려워진다. 즉, 정확도가 높아도 데이터 개수가 적은 클래스의 재현율이 급격히 작아지는 현상이 발생할 수 있다. 

- 불균형 데이터의 처리 방법

 (1) 가중치 균형방법: 데이터에서 손실을 계산할 때, 특정 클래스의 데이터에 더 큰 loss값을 갖도록 하는 방법(고정 비율, 최적 비율 방법)

 (2) 언더샘플링과 오버샘플링: 다수클래스 데이터의 일부만 사용하거나, 소수클래스의 데이터를 증가시키는 방법

 

 

 

 

※ 참고서적

서명 이기적 빅데이터분석기사 필기2022
저자 나홍석, 배원성, 이건길, 이혜영 공저, 고려사이버대학교AI, 빅데이터 연구소
출판사 영진닷컴

 

728x90

댓글