※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다.
01. 데이터 탐색의 기초 - 중요도 중(★★)
1. 데이터 탐색의 개요
- 탐색적 데이터 분석: 수집된 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것으로 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정이다.
- 탐색적 데이터 분석의 필요성: 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해하며 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있다. 문제점 발견 시 본 분석 전 데이터의 수집 의사를 결정할 수 있다. 문제정의 단계에서 인지 못한 새로운 양상, 패턴을 발견할 수 있다. 새로운 양상을 발견 시 초기 설정 문제의 가설을 수정하거나 또는 새로운 가설을 설립할 수 있다. (최초의 가설에 집중 X)
- 분석과정 및 절차
(1) 분석의 목적과 변수, 개별 변수의 이름이나 설명을 가지는 지 확인
(2) 데이터의 결측치 유무, 이상치의 유무, 등을 확인
(3) 데이터의 개별 속성값이 예상한 범위 분포를 가지는 지 확인
(4) 관계속성 확인 (상관관계 등)
- 이상치의 검출: 이상치가 왜 발생했는지 의미를 파악하는 것이 중요하며, 대처 방법을 판단한다.
(1) 개별 데이터 관찰
(2) 통계값 활용
. 데이터 중심 확인: 평균(이상치의 영향을 받는다), 중앙값(이상치의 영향을 받지 않는다.), 최빈값 등
. 데이터 분산 확인: 범위, 분산 사용
. IQR(제3 사분위-제1 사분위) 방법: (제1 사분위 - 1.5 xIQR) ~(제3 사분위 + 1.5 xIQR)를 벗어나면 이상치로 판단한다.
. 정규분포를 활용: (평균-2x표준편차) ~ (평균+2x표준편차) or (평균-1.5x표준편차) ~ (평균+1.5x표준편차) 구간을 벗어나면 이상치로 판단한다.
. 사분위편차: Q3 - Q1 을 사분위 편차라고 함
(3) 시각화 활용: 확률밀도 함수, 히스토그램, 점플롯, 워드 클라우드, 시계열 차트, 지도 등 활용
(4) 머신러닝 기법 활용: K-means를 통해 이상치를 확인할 수 있다.
2. 상관관계분석
- 변수 간의 상관성 분석: 두 변수 간에 어떤 선형적 관계를 갖고 있는지를 분석하는 방법, 두 변수 간의 관계의 강도를 상관관계라고 한다. ex) 단순상관분석, 다중상관분석, 편상관관계분석
- 상관분석의 기본 과정: 선형성, 동변량성(등분산성-특정 구간에 상관없이 퍼진 정도가 일정), 정규분포성, 무선독립표본(표본 대상이 확률적으로 선정)
- 상관분석방법
(1) 피어슨 상관계수: -1~+1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관 관계없음, -1은 완벽한 음의 선형 상관관계를 의미한다.
(2) 스피어만 상관계수: 데이터가 서열자료인 경우, 자료의 값대신 순위를 이용하는 경우의 상관계수
3. 기초통계량의 추출 및 이해
- 자료를 수집하여 요약, 정리하는 기초통계는 자료의 특성을 정량적인 수치에 의해서 나타내는 방법이다
- 중심화 경향, 퍼짐 정도, 자료의 분포형태 등으로 나타낼 수 있다.
- 중심화 경향 기초 통계량
(1) 산술평균: 모평균, 표본평균
(2) 기하평균: N개의 자료에 대해 관측치를 곱한 후 n제곱근으로 표현한다. 다기간의 수익률에 대한 평균 수익률, 평균 물가 상승률 등을 구할 때 사용
(3) 조화평균: 각 요소의 역수의 산술평균을 구한 후 다시 역수를 취한다. 변화율 등의 평균을 구할 때 사용
(4) 중앙값: 가운데 위치한 값
(5) 최빈값: 가장 노출 빈도가 높은 자료
(6) 분위수: 자료의 위치를 표현, 사분위수, 오분위수, 십분위수, 백분위수 등
- 산포도(분산도)
(1) 분산(평균을 중심으로 밀집되거나 퍼짐 정도를 나타냄), 표준편차(분산의 제곱근)
▶ 분산 = ((각 값 - 평균)^2의 합) / (값의 수)
. 분산은 개개의 자료값과 평균과의 편차의 제곱을 이용하여 표현되므로 자료값의 단위를 제곱한 단위를 사용하게 된다. 분산으로 얻은 수치를 해석하기가 곤란하다는 단점을 보완하기 위하여 제곱근을 취한 척도가 표준 편차이다.
. 분산의 특성: 개개의 자료값에 대한 정보 반영, 수리적으로 다루기 쉽다, 특이점에 큰 영향, 분산이 크면 자료가 평균으로부터 흩어진 형태, 미지의 모분산 추론에 많이 사용
(2) 범위: 데이터 간의 최댓값과 최솟값의 차이를 나타냄
(3) 평균 절대 편차: 각 자료값과 표본평균과의 편차의 절댓값에 대한 산술평균
(4) 사분위범위: 제3 사분위수(Q3) - 제1 사분위수(Q1)를 의미
(5) 변동계수(CV: 표준편차/평균): 평균을 중심으로 한 상대적인 산포의 척도를 나타내는 수치, 측정 단위가 동일하지만 평균이 큰 차이를 보이는 두 자료집단 또는 측정단위가 서로 다른 두 자료집단에 대한 산포의 척도를 비교할 때 많이 사용, 변동계수가 클수록 상대적으로 넓게 분포를 이룬다.
- 자료의 분포형태
(1) 왜도(Skewness): 분포가 어느 한쪽으로 치우친 정도를 나타내는 통계적 척도, 오른쪽 꼬리가 길면 양의값, 왼쪽으로 꼬리가 길면 음의값이 된다. 좌우 대칭이면 0이 된다.
(2) 첨도(Kurtosis): 분포의 뾰족한 정도, 3 미만이면 평평함, 3이면 정규분호, 3이 넘으면 뾰족한 분포
4. 시각적 데이터 탐색
- 통계적 시각화 도구
(1) 도수분포표: 수집된 자료를 적절한 계급에 의해 분류하여 정리한 표
(2) 히스토그램: 도수분포표를 이용하여 표본의 자료분포를 나타낸 그래프
(3) 막대그래프: 각 자료값에 대한 도수 또는 상대도수를 그림으로 표현
(4) 파이차트: 각 자료값의 상대도수로 기입하여 원의 면적에 상대 크기별로 나타냄
(5) 산점도: 직교 좌표계를 이용해 두 개 변수 간의 관계를 나타냄.
(6) 줄기잎 그림: 통계적 자료를 표형태와 그래프 형태의 혼합된 방법으로 나타내는 것.
(7) 상자수염그림(Box Plot): 최솟값, 제1사분위, 제2사분위, 제3사분위, 최댓값을 그림
02. 고급 데이터 탐색 - 중요도 하(★)
1. 시공간 데이터 탐색
- 시공간 데이터의 개념: 공간적 정보(데이터)에 시간의 흐름(이력정보 등)이 결합된 다차원 데이터를 다루는 것. 데이터 통신 및 처리를 다루는 이동 컴퓨팅 분야에서 관심, 스마트폰 발전으로 중요성이 커짐
(1) 시간 데이터: 유효 시간(객체 발생/소멸 시간), 거래 시간(시스템 처리 시간), 사용자 정의 시간, 스냅샷 데이터, 거래 시간 데이터, 유효 시간 데이터, 이원 시간 데이터(거래시간과 유효시간을 동시에 지원하는 데이터) 등의 표현을 정의
(2) 공간 데이터: 비공간 타입, 래스터 공간 타입(실세계에 존재하는 객체의 이미지), 벡터 공간 타입, 기하학적 타입, 위상적 타입(공간 객체 간의 관계, 방위, 중첩, 교차, 분리 등 위치적 관계)
(3) 공간 데이터 모델:관계형 모델, 객체지향 모델
(4) 시공간 데이터: 시간과 공간 데이터의 결합
- 시공간 데이터 분석
(1) 시공간 데이터에 대한 질의어
. 시공간자료 정의언어: 인덱스, 뷰(View)의 정의문, 변경문, 점, 선, 면 등의 공간속성 타입이 추가
. 시공간자료 조작언어: 객체의 삽입, 삭제, 변경 등의 검색문
(2) 시공간 데이터의 연상
. 시공간위상 관계연산, 시공간기하 연산이 있다.
- 적용 및 응용분야: 시공간 데이터 기술은 지리정보 시스템, 위치기반 서비스, 차량 위치추적 서비스 등에 활용된다.
2. 다변량 데이터 탐색
- 종속변수와 독립변수 사이의 인과관계
(1) 다중회귀: 독립변수가 2개 이상인 회귀모형을 지칭하며 각 독립변수는 종속변수와 선형관계에 있음을 가정
. 장점:변수를 추가하여 분석내용의 질적 향상 가능. 독립변수가 적으면 모형설정이 부정확하고, 계수추정량에 대한 편이(bias)를 발생시킬 수 있다.
. 일반형식:y는 종속 변수이고, x1, x2,..., xp는 p개의 독립 변수입니다. β0, β1, β2,..., βp는 회귀 계수이며, ε는 오차 항
. 기본가정: 회귀모형은 모수에 대해 선형, 오차항의 평균은 0, 오차항의 분산은 모든 관찰치에 대해 σ²의 일정한 분산을 갖는다.
. 오차항은 서로 독립이며 공분산은 0
. 오차항의 각 독립변수 역시 독립
. 오차항은 정규분포를 따르며 N(0, σ²이다.)
. 분석방법:최소자승법을 이용
(2) 로지스틱 회귀: 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측
. 특징: 이항형 데이터에 적용하였을 때 종속 변수 y의 결과가 범위[0,1]로 제한되고, 종속변수가 이진적이기 때문에 조건부 확률(P(y|x))의 분포가 정규분포 대신 이항 분포를 따른다는 점이 선형모델과 차이가 있다.
※ 이항형 데이터: 성공/실패, 남성/여성 등 둘에 대한 빈도수 및 비율 분포 특성을 파악할 수 있는 자료
. 수식 :
(3) 분산분석(ANOVA): 3개 이상의 표본들의 차이를 표본평균 간의 분산과 표본 내의 관측치 간 분산을 비교하여 가설을 검정하는 것이다.
. 일원분산분석: 단 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석, 단일용인변수(독립변수)에 의해 종속변수에 대한 평균치의 차이(최빈값 X)를 검정, 종속변수와 정수값을 갖는 요인변수가 각 하나여야 하고 요인 변수가 정의되어야 한다.
(4) 다변량 분산분석: 측정형 변수, 종속 변수가 2개 이상인 분산 분석
. 이원분산분석: 두 개 이상의 인자에 근거하여 여러 수준으로 나누어짐, 독립 변인의 수가 둘이다.(종속변수는 하나)
- 변수축약
(1) 주성분분석: 다변량자료에서 존재하는 비정규성이나 이상치를 발견하기 위하여 변수들의 상관관계(또는 공분산)가 존재하지 않는 새로운 변수(주성분)를 구하는 것을 지칭한다. 주성분 분석은 N개의 변수로부터 서로 독립인 K(<N) 개의 주성분을 구해 원 변수의 차원을 줄이는 방법이다. 차원축소에 폭넓게 사용되며, 어떠한 사전적 분포 가정의 요구가 없다. 차원의 축소는 본래의 변수들이 서로 상관이 있을 때만 가능하다.
(2) 요인분석(Factor Analysis): 다수의 변수들의 상관관계를 분석하여 공통차원들을 통해 축약해 나가는 방법
. 요인분석의 특징: 독립변수와 종속변수 개념이 없다. 추론통계가 아닌 기술 통계기법에 의해 수행가능(상관분석 등)
. 요인분석의 목적: 변수 축소, 변수 제거, 변수 특성 파악, 측정항목의 타당성 평가, 변수 생성
(3) 정준상관분석: 두 변수집단 간의 연관성을 각 변수집단에 속한 변수들의 선행결합의 상관계수를 이용하여 분석하는 방법(일반화된 상관계수) / 집단 간의 상관분석
. 정준변수:새로 만들어진 선형결합
. 정준상관계수:정준변수들 사이의 상관계수, 두 집단에 속하는 변수들의 개수 중에서 변수의 개수가 적은 집단에 속하는 변수의 개수만큼의 정준변수가 만들어질 수 있다.
. 정준분석과 회귀분석의 차이점: 회귀분석의 경우 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면에 정준분석에서는 이와 같은 인과성이 없다.
- 개체유도: 개체들의 특성을 측정한 변수들의 상관관계를 이용하여 유사한 개체를 분류하는 방법
(1) 군집분석: 관측값들 사이의 거리(또는 유사성)를 이용하여 변수 또는 개체들을 자연스럽게 몇 개의 그룹 또는 군집(cluster)으로 나누는 분석기법
. 군집 간의 거리에 대한 정의가 가장 중요
. 계층적(hierachical) 방법, 비계층적(nonhierarchical) 방법, 최적분화(partitioning) 방법, 조밀도에 의한 방법, 그래프를 이용하는 방법 등이 있다.
(2) 다차원 척도법(MDS:Multi-Dimensional Scaling): 다차원 관측값 또는 개체들 간의 거리 또는 비유사성을 이용하여 개체들을 원래의 차원보다 낮은 차원(보통 2차원)의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 하는데 목적이 있다.
(3) 판별 분석: 2개 이상의 그룹으로 나누어진 개체에 대해 분류에 영향을 미칠 것 같은 특성을 측정하고 이를 이용하여 새로운 개체를 분류, 로지스틱 판별분석이 있다.
3. 비정형 데이터 탐색
- 비정형 데이터의 특징: 텍스트 중심, 날짜, 숫자, 사실과 같은 데이터 포함, 변칙과 모호함
- 비정형 데이터의 분석
(1) 데이터 마이닝: 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
. OLAP, SOM, 신경망, 전문가 시스템 등의 기술적인 방법론 사용
. 신용평가모형, 사기탐지, 장바구니 분석, 최적 포트폴리오 구축 등에 광범위하게 사용
. 분류, 군집화, 연관성, 연속성, 예측 등
. 데이터 마이닝의 단점: 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할 수 있다.
(2) 텍스트 마이닝: 자연어처리 방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터의 숨겨진 의미를 발견
. 자연어처리: 정보검색, QA시스템, 문서 자동분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용
(3) 오피니언 마이닝:텍스트 마이닝의 한 분류, 텍스트 마이닝은 문장 내 주체를 파악하고 오피니언 마이닝은 감정, 뉘앙스, 태도 등을 판별한다는 차이가 있다. 감정분석이라고도 불린다.
(4) 웹 마이닝: 웹 자원으로부터 의미 있는 패턴, 추세 등을 도출하는 것, 대량의 로그기록 기반, 웹구조 마이닝, 웹내용 마이닝, 웹사용 마이닝이 있다.
※ 참고서적
서명 | 이기적 빅데이터분석기사 필기2022 |
저자 | 나홍석, 배원성, 이건길, 이혜영 공저, 고려사이버대학교AI, 빅데이터 연구소 |
출판사 | 영진닷컴 |
'데이터분석과 AI > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] Part03. 빅데이터 모델링-Ch01. 분석 모형 설계 (0) | 2023.04.06 |
---|---|
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch03. 통계기법의 이해 (0) | 2023.04.05 |
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch01. 데이터 전처리 (0) | 2023.04.01 |
[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch03. 데이터 수집 및 저장 계획 (0) | 2023.03.30 |
[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch02. 데이터 분석 계획 (0) | 2023.03.29 |
댓글