본문 바로가기
데이터분석과 AI/빅데이터 분석기사

[빅데이터분석기사 필기] Part04. 빅데이터 결과 해석-Ch02. 분석결과 해석 및 활용

by 우공80 2023. 4. 17.
728x90

 

※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다.

01. 분석결과 해석 - 중요도 하(★)

1. 분석 모델별 결과 해석

- 분석모형 해석

 (1) 회귀모델: MAE, MSE, MAPE, RMSE, RMSLE, R^2(R squared), 수정된 R^2(adjusted R squared)

  . 잔차는 회귀모형으로 실제 값과 예측 값의 차이를 의미하는 것이며, 잔차에는 패턴이나 추세가 있어서는 안 된다.

  . 결정계수는 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표

  . 딥러닝 모델 해석에 사용하는 오차율은 상대오차나 평균 제곱근 편차를 사용한다.

  (2) 분류모델: 각각의 경우에 따라 클래스 별로 속할 확률의 정확도를 살펴본다.

  . 혼동행렬을 이용한다. 아래글 참고

2022.09.23 - [데이터분석/데이터분석 일반] - Confusion Matrix(혼동 행렬)과 평가지표 이해하기

 

Confusion Matrix(혼동 행렬)과 평가지표 이해하기

Confution Matrix란? 오늘 정리해 볼 것은 Confusion Matrix입니다. 시스템이 분류 문제를 얼마나 헷갈려하는지 알 수 있는 표라고 Confusion Matrix인데, 이 표를 보고 있는 사람도 혼동이 와서 혼동행렬이라

woogong80.tistory.com

  . ROC는 FPR(False Positive Rate, Characteristics(특이도))이 변할 때 TPR(True Positive Rate, sensitivity(민감도))이 어떻게 변하는지 보여주는 곡선으로 AUC는 ROC곡선 밑의 면적

 (3) 군집분석 모델: 군집그룹의 통계량을 요약하고 관측치의 공통점과 변동성을 확인한다.

  . 외부평가:얼마나 유사하게 군집화가 되었는지 확인

  . 내부평가: 적절한 군집 개수 결정, Dunn Index

  . 팔꿈치 기법: 팔꿈치 모습을 나타내는 곳 값을 적절한 군집 K값으로 지정

  . 실루엣 기법: 다른 군집과의 거리는 떨어져 있고, 동일 군집끼리의 데이터는 서로 가깝게 잘 뭉쳐있다는 의미로 0~1의 값을 가지며, 1에 가까울수록 최적화가 잘 되어있음으로 해석

 (4) 연관분석 모델

  . 지지도, 신뢰도, 향상도

- 비즈니스 기여도 평가

 (1) 빅데이터 분석 목적

  . 고객 인사이트

  . 제품 및 절차 효율성

  . 디지털 제품 및 서비스

  . 운영의 탁월성

  . 디지털 마케팅

  . 위기관리 시스템

 (2) 분석 결과의 기여도 평가:ROI(투자한 자본에 대한 수익/손실 비율)

2. 분석 모델별 시각화

- 회귀 모델:히트맵과 산점도를 활용한다. 

- 분류 모델

 (1) SVM: 산점도와 구분선을 통한 비교시각화 기법으로 활용 범위와 영역을 구분한다. 

 (2) KNN: 비교시각화의 평행좌표계로써 변수들과의 연관성 및 그룹데이터의 경향성을 파악한다. 

 (3) 의사결정나무: 관계시각화 기법의 트리 다이어그램으로 시각화한다.

- 딥러닝 모델: 파라미터, 가중치 시각화 및 특징 차원감소를 통해 시각화할 수 있다.

 (1) Node-link Diagrams: 뉴런과 연결 가중치를 표현하는 Node로 시각화한다.

 (2) 차원축소, 산포도: t-SNE 또는 PCA를 이용하여 차원을 축소하여 데이터를 2차원으로 표현

 (3) 측정을 위한 선도표: 진행상황에 따른 결과를 선도표로 나타낸다.

 (4) 군집분석 모델: 산점도로 시각화

 (5) 연관분석 모델: 네트워크 그래프를 활용

02. 분석결과 시각화 - 중요도 중(★)

1. 데이터 시각화 개요

- 데이터 시각화 정의: 정보를 명확하고 효과적으로 전달하는 것을 목적으로 한다.

- 데이터 시각화 특성: 자료로부터 정보를 습득하는 시간을 절감하고 데이터에 대한 즉각적인 판단이 가능하다.

- 데이터의 유형

유형 특징
범주형 명목형 순서는 매길 수 없지만 셀 수 있다.
순서형 순서를 매길 수 있고 셀 수 있다.
수치형 이산형 셀 수 있는 형태의 값, 정수형
연속형 연속된 구간의 값, 주로 측정치

- 데이터의 시각적 속성: 위치, 크기, 선 굵기, 색 속성은 연속형 데이터와 이산형 데이터에 모두 적용할 수 있지만, 형태, 선 유형 속성은 이산형 데이터에만 적용할 수 있다. 

- 정보시각화: 방대한 양의 정보를 한 번에 사용자가 보고 이해할 수 있도록 직관적으로 표현

- 정보 디자인: 시각 디자인의 하위 영역으로 정보를 구성하여 효율적으로 사용할 수 있게 하는 디자인 기술 및 업무

- 인포그래픽: 복잡한 수치나 글로 표현되어 있는 정보와 지식을 차트, 지도, 픽토그램, 다이어그램, 일러스트레이션 등을 활용하여 한눈에 파악할 수 있도록 시각적으로 표현하는 것. 설득형 메시지를 전달하기 위해서 주로 사용되며, 정보를 빠르고 분명하게 표현하는 것에 중심을 둔다. 스토리를 통해 정보를 전달하려는 경향이 강하다.

2. 시간 시각화

- 시간 시각화의 데이터 특징과 도구

 (1) 이산형(분절형): 특정 시점 또는 특정 시간의 구간 값을 표현한다.( 도구: 막대그래프, 누적막대그래프, 묶은 막대그래프, 점그래프)

 (2) 연속형: 어떤 구간에서 지속적으로 변화하는 값을 표현한다.(도구: 꺾은선그래프 계단그래프, 추세선)

 

- 막대그래프: 데이터 값을 길이로 표현한 막대를 배치하여 상대적인 차이를 한눈에 알아보도록 표현하는 방법

- 누적막대그래프: 두 개 이상의 변수를 동시에 다루는 경우에 막대의 영역을 구분하여 나머지 변수의 값을 표현. 세부 항목 각각의 값과 전체의 합을 함께 표현할 때 유용

- 묶은 막대그래프: 두 개 이상의 변수를 동시에 다루는 경우에 사용하며 첫 번째 변수(x축)의 각 위치에 나머지 변수의 값을 각각의 막대로 표현한다. 세부항목의 값의 변화를 표현할 수 있지만, 변수의 누작합계나 추이를 파악하기는 어렵다.

- 점그래프: 가로축에 대응하는 세로축의 값을 점으로 표시한 그래프. 시간의 흐름에 다른 값의 변화를 표현할 수 있다.

- 꺾은선 그래프(연속 시계열 그래프): 점그래프에서 점과 점 사이를 선으로 연결한 그래프

- 계단 그래프: 변화가 생길 때까지 일정한 선을 유지하다가 다음 값으로 바뀌는 지점에서 급격하게 변화(ex. 연도별 최저임금 변화)

- 추세선: 데이터 값의 변화하는 경향성을 보여주는 직선 또는 곡선(지수형, 로그형, 선형, 이동평규형 등이 있다. 

 

4. 분포 시각화

- 분포 시각화 정의: 데이터의 분포를 시각적으로 표현하는 기법

- 히스토그램: 세로축은 데이터의 분포정도, 가로축은 특정 변수의 구간 폭을 의미

- 원그래프(파이차트): 하나의 원을 구성하는 데이터의 비율에 따라 조각으로 나누어서 데이터의 분포를 표현

- 트리맵: 전체 데이터를 표현하는 하나의 사각형 영역에 세부 사각형들의 크기로 데이터의 분포를 시각화하여 표현, 계층형/트리 구조를 가진 데이터를 표현하는데 유용

- 누적연속그래프: 시간 변화에 따른 값의 변화를 선 그래프의 영역으로 표현한다. 아래 부분의 데이터 값이 윗부분의 위치에 영향을 주기 때문에(값이 누적됨), 값의 분포를 표현하는 데 적합하며 한 집단의 경향성을 알아보기는 어렵다. 

5. 관계 시각화

- 관계 시각화 정의: 데이터 사이의 관계를 시각적으로 표현하는 것. 대표적인 도구로 산점도, 버블차트, 히트맵 등이 있다.

- 산점도: 2차원 또는 3차원 좌표계를 활용하여 점으로 표시한 것으로 점들의 집합이 모여서 두 변수 사이의 관계를 표현

- 버블차트: x, y값의 위치를 표시하는 산점도에 점의 위치에 해당하는 제3의 변수값을 원의 크기로 표현한 그래프로 한 번에 3개의 변수를 비교해 볼 수 있다. 도시별 인구밀집도, 도시별 우우판매량 등 국가나 지역에 따른 값의 분포를 표현

- 히트맵: 데이터 분포와 관계에 대한 정보를 색(Heat)으로 표현한 그래프이다.

6. 비교 시각화

- 비교 시각화 정의: 하나 이상의 변수에 대해서 변수 사이의 차이와 유사성 등을 표현하는 방법

- 히트맵: 여러 변수와 다수의 대상에 대해 하나의 표 형태로 표현할 수 있는 도구로 관계시각화뿐만 아니라 비교 시각화 도구로도 유용하게 사용된다.  

- 체르노프 페이스: 데이터 표현에 따라 달라지는 차이를 얼굴의 모양으로 나타내는 방법. 얼굴형, 입, 눈, 머리카락, 코, 귀 등의 요소를 사용한다. 

- 스타차트: 하나의 공간에 각각의 변수를 표현하는 몇 개의 축을 그리고, 축에 표시된 해당 변수의 값들을 연결하여 별모양으로 표현하는 그래프이다. 연결된 선의 모양이나 색을 다르게 하는 경우 여러 속성을 한 번에 표현할 수 있다. 

- 평행좌표계: 체르노프페이스는 한 대상의 특징을 명확하게 보여주지만, 여러 대상을 한 번에 보여주기는 힘들다. 평행좌표계는 스타차트의 여러 축을 평행으로 배치하고, 축의 윗부분을 최대값 아랫부분을 최소값으로 하여 값들을 선으로 연결해서 표현한다. 

- 다차원 척도법: 객체 간 근접성을 시각화

7. 공간 시각화

- 공간시각화 정의: 장소나 지역에 따른 데이터의 분포를 표현

 (1) 지형코드화(Geocoding): 래스터 이미지를 고쳐 실세계 지도 투영이나 좌표계에 일치시키는 처리과정

 (2) 매핑(Mapping): 좌표값을 가진 데이터를 다양한 방법으로 지도에 표시

- 단계구분도: 여러 지역에 걸친 정량 정보를 나타낼 때, 데이터가 분포된 지역별로 색을 다르게 칠한 지도

- 카토그램: 데이터 값의 변화에 따라 지도 면적을 인위적으로 왜곡하여 데이터 값에 대한 직관적인 이해가 가능하도록 한 다이어그램

 

03. 분석결과 활용 - 중요도 하()

1. 분석모형 전개

- 빅데이터 분석 방법론: 분석기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개

-  CRISP-DM: 비즈니스 이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개

- SEMMA: SAS사의 주도로 통계적 분석에 중심을 두고 있는 방법론, 샘플링 - 탐색 - 전처리 - 모델링 - 평가

- KDD: 데이터 추출 - 전처리 - 변환 - 데이터마이닝 - 해석/평가

- 전개(Deployment) 단계의 역할: 개발된 모델을 적용하여 결과를 확인하고 계속적인 관리를 위한 방법을 제시, 개발된 모델을 주기적으로 모니터링하고 성능 개선을 위한 노력을 하는 것

 (1) 분석 결과 활용 계획 수립

 (2) 분석결과 적용과 보고서 작성

 (3) 분석모형 모니터링

 (4) 분석모형 리모델링

2. 분석결과 활용 계획 수립

- 분석결과 활용 계획 수립 개요: 빅데이터 분석 결과를 어떻게 업무에 반영할 것인지에 대한 액션플랜을 만들고 업무성과를 지속적으로 모니터링할 수 있는 방안을 수립

- 분석결과 활용 시나리오 개발: 분석 과제 계획 단계에서 활용 방안을 미리 수립, 전개 단계에서 활용방안을 시나리오 수준까지 구체화

- 분석결과 적용과 보고서 작성: 빅데이터 분석 결과 활용 시 기대되는 성과를 조직 내에서 충분히 공유하고 실무자들에게 분석 결과에 대한 전반적인 내용을 이해시키고 실제 업무에 적용하는 방법 및 활용방안을 모색

- 분석기획단계에서 설정된 기준에 따라 프로젝트의 성과를 정량적, 정성적으로 평가하고 프로젝트 성과 평가서를 작성한다. 

 (1) 성과 측정 항목 정의

 (2) 성과를 측정하고 예상 성과지표와 비교

 (3) 실제 성과가 목표치보다 부족하면 먼저 목표치 설정에 문제가 없는지 파악하고, 문제가 없다면 분석과제의 개선사항을 검토한다. 

 (4) 성과 평가를 문서화하고 관련 부서 및 조직과 공유한다.

- 최종보고서 작성

 (1) 프로젝트 개요: 목표, 범위, 일정, 비용

 (2) 프로젝트 수행조직

 (3) 프로젝트 단계별 산출물 요약

 (4) 성과평가 결과

 (5) 모니터링 및 개선 계획

4. 분석모형 모니터링

- 분석 모니터링 필요성: 주변 환경과 데이터의 변화를 빅데이터 분석 모델에 지속적으로 반영

- 분석 모니터링 대상: 지속적인 모니터링과 유지관리가 매우 중요

 (1) 분석 모니터링의 주요 대상: 서비스, 분석모델, 데이터

 (2) 분석 서비스 유지관리의 주요 대상: 정책/제도, 업무, 관련 시스템, 인력

 

5. 분석모형 리모델링

- 분석 서비스 운영과정에서 지속적으로 새로운 데이터가 들어오고 정책이나 환경이 변화함으로써 분석 모델의 성능이 떨어질 수 있음.

- 분석모형 리모델링 방법

 (1) 분석 목적에 기반한 가설 및 추정방법에 대한 재검토

 (2) 분석용 데이터의 범위 및 품질 검토

 (3) 과대적합과 과소적합 방지를 위한 알고리즘 개선

 (4) 분석 알고리즘과 매개 변수 최적화

 (5) 분석 모형 융합과 재결합

 

 

※ 참고서적

서명 이기적 빅데이터분석기사 필기2022
저자 나홍석, 배원성, 이건길, 이혜영 공저, 고려사이버대학교AI, 빅데이터 연구소
출판사 영진닷컴

 

728x90

댓글