본문 바로가기
데이터분석과 AI/빅데이터 분석기사

[빅데이터분석기사 필기] Part03. 빅데이터 모델링-Ch01. 분석 모형 설계

by 우공80 2023. 4. 6.
728x90

빅데이터 분석기사 필기

※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다.

01. 분석 절차 수립 - 중요도 하()

1. 분석 모형 선정

- 분석 목적: 의사결정, 불확실성해소, 요약, 인과관계 파악, 예측

- 빅데이터 분석 근본 목적: 과거의 데이터를 토대로 원인에 대해 분석하고 그 결과로 미래를 예측

 . 데이터는 후행성 성격을 지니지만 선행성의 성격도 가지고 있다. 

 . 가트너 그룹 빅데이터분석 목적: 고객 인사이트, 제품 및 절차 효율성, 디지털 제품 및 서비스, 운영의 탁월성, 디지털 마케팅, 위기관리시스템

- 분석 모형 선정 프로세스

 . 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석목표/조건 정의

 . 데이터 수집, 정리 및 도식화

 . 데이터 전처리(데이터 정제, 종속/독립변수 선정, 데이터 변환, 데이터 통합, 데이터 축소 등)

 . 최적의 분석 모형 선정

2. 분석 모형 정의

- 분석 모형 정의와 종류 (아래 3가지에 다른 모형을 끼워서 틀린 것을 찾는 문제가 자주 출제됨)

 (1) 예측 분석 모형

 (2) 현황 진단 모형

 (3) 최적화 분석 모형

- 분석 모형 정의를 위한 사전 고려사항:실제 추진될 수 있을지 가능성 타진 필요. 필요성, 파급효과, 추진 시급성, 구현 가능성, 데이터 수집 가능성, 모델 확장성을 근거로 분석 모형 정의와 판별을 할 수 있다. 데이터가 충분히 확보되어 있는지를 판단하여 관련 과거 분석 사례 또는 솔루션을 최대한 활용할 수 있는지 검토

 (1) 상향식 접근: 문제 정의가 어려울 경우 많은 양의 데이터 분석을 통해 인사이트를 도출. 특정영역을 지정하여 의사결정 지점으로 진행하는 과정에서 분석과제를 발굴하는 방식

 (2) 하향식 접근: 문제 정의가 가능할 시 문제 탐색과 연관되어 비즈니스 모델(수익), 외부참조모델(벤치마킹), 분석 유스케이스(상세설명과 효과) 기반 모델로 발굴하는 방식을 적용

3. 분석 모형 구축 절차

- 분석 시나리오 작성: 분석과정에 필요한 데이터, 절차, 분석기법 등의 세부사항들을 정의, 분석 과정과 결과가 어떻게 활용되는지 명확히 알 수 있다. 

- 분석 모형 설계

- 분석 모델링 설계와 검정: 분석 목적에 기반한 가설검정 방법

 (1) 유의 수준 결정, 귀무가설과 대립가설 설정

 (2) 검정통계량의 설정: 가설을 검정하기 위한 기준으로 사용하는 값 (무엇을 검정하는지에 대한 설정)

 (3) 기각역의 설정: 기각역은 확률분포에서 귀무가설을 기각하는 영역, 기각역에 검정통계량이 위치하면 귀무가설을 기각

 (4) 검정통계량 계산 : (표본평균-모평균)/표본 표준편차

  . 신뢰 수준: 가설을 검정할 때 어느 정도로 검정할 것인지에 대한 수준

  . 유의 수준(알파값): 가설을 검정할 때 일정 수준을 벗어나면 귀무가설이 오류라고 판단하는 수준. 유의 수준의 수학적 의미는 기각역들의 합이며, 1에서 신뢰 수준을 뺀 값

 (5) 통계적인 의사결정(가설검정): 양측검정과 단측검정. 통계적인 의사결정 단계에서는 계산한 검정 통계량을 t값 분포도와 비교하여 기각역에 속하는지 아닌지를 판단한다.

 (6) 분석 모델링 설계와 검정- 추정 방법에 대한 기술 검토

※ 통계추정은 가설검정과 관련 없다.

 

01. 분석 환경 구축 - 중요도 하()

1. 분석 도구 선정

- R: 객체지향 언어, 고속메모리 처리, 다양한 자료구조, 최신 패키지 제공, 시각화

 (1) R의 장점: 다양한 패키지, 시각화 기능에 특화

 (2) R의 단점: 대용량 메모리 처리가 어려우며 보안 기능이 취약, 별도 모듈 연동이 아니면 웹 브라우저에서 사용 불가

- 파이썬: 플랫폼 독립적, 인터프리터식, 객체지향적 대화형 언어

 (1) 파이썬의 장점: 영어 문장 형식으로 구현된 빠른 개발 속도, 재사용 가능한 모듈, 다른 언어 프로그램들과 연동성이 높음

 (2) 컴파일 없이 인터프리터가 한 줄씩 실행하는 방식으로 실행속도가 느림(바이트 코드를 일부 생산하거나 JIT 컴파일러를 사용하여 보완)

2. 데이터 분할

- 데이터 분할 정의: 학습데이터(training), 평가데이터(validation), 검증용 테스트 데이터(test) 분할 ▶ 7:3, 8:2 또는 4:3:3, 5:3:2로 정한다. 

  . 평가데이터는 추정한 분석 모델이 과대/과소적합인지 모형의 성능을 평가하기 위한 데이터

  . 검증용 테스트 데이터는: 최종적으로 일반화된 분석 모형을 검증하는 테스트를 위한 데이터

- 과대적합 방지를 위해 데이터 분할, k-fold교차검증, 정규화 등의 방법이 있다.

- 과소적합: 모형이 단순하여 잘 학습하지 못하는 것을 과소적합이라 한다. 

- 일반화: 학습데이터를 통해 생성된 모델이 평가 데이터를 통한 성능 평가 외에도 검증용 테스트 데이터를 통해 정확하게 예측하는 모델을 일반화된 모형이라고 한다. 

 

 

 

 

※ 참고서적

서명 이기적 빅데이터분석기사 필기2022
저자 나홍석, 배원성, 이건길, 이혜영 공저, 고려사이버대학교AI, 빅데이터 연구소
출판사 영진닷컴

 

728x90

댓글