※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다.
01. 분석 절차 수립 - 중요도 하(★)
1. 분석 모형 선정
- 분석 목적: 의사결정, 불확실성해소, 요약, 인과관계 파악, 예측
- 빅데이터 분석 근본 목적: 과거의 데이터를 토대로 원인에 대해 분석하고 그 결과로 미래를 예측
. 데이터는 후행성 성격을 지니지만 선행성의 성격도 가지고 있다.
. 가트너 그룹 빅데이터분석 목적: 고객 인사이트, 제품 및 절차 효율성, 디지털 제품 및 서비스, 운영의 탁월성, 디지털 마케팅, 위기관리시스템
- 분석 모형 선정 프로세스
. 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석목표/조건 정의
. 데이터 수집, 정리 및 도식화
. 데이터 전처리(데이터 정제, 종속/독립변수 선정, 데이터 변환, 데이터 통합, 데이터 축소 등)
. 최적의 분석 모형 선정
2. 분석 모형 정의
- 분석 모형 정의와 종류 (아래 3가지에 다른 모형을 끼워서 틀린 것을 찾는 문제가 자주 출제됨)
(1) 예측 분석 모형
(2) 현황 진단 모형
(3) 최적화 분석 모형
- 분석 모형 정의를 위한 사전 고려사항:실제 추진될 수 있을지 가능성 타진 필요. 필요성, 파급효과, 추진 시급성, 구현 가능성, 데이터 수집 가능성, 모델 확장성을 근거로 분석 모형 정의와 판별을 할 수 있다. 데이터가 충분히 확보되어 있는지를 판단하여 관련 과거 분석 사례 또는 솔루션을 최대한 활용할 수 있는지 검토
(1) 상향식 접근: 문제 정의가 어려울 경우 많은 양의 데이터 분석을 통해 인사이트를 도출. 특정영역을 지정하여 의사결정 지점으로 진행하는 과정에서 분석과제를 발굴하는 방식
(2) 하향식 접근: 문제 정의가 가능할 시 문제 탐색과 연관되어 비즈니스 모델(수익), 외부참조모델(벤치마킹), 분석 유스케이스(상세설명과 효과) 기반 모델로 발굴하는 방식을 적용
3. 분석 모형 구축 절차
- 분석 시나리오 작성: 분석과정에 필요한 데이터, 절차, 분석기법 등의 세부사항들을 정의, 분석 과정과 결과가 어떻게 활용되는지 명확히 알 수 있다.
- 분석 모형 설계
- 분석 모델링 설계와 검정: 분석 목적에 기반한 가설검정 방법
(1) 유의 수준 결정, 귀무가설과 대립가설 설정
(2) 검정통계량의 설정: 가설을 검정하기 위한 기준으로 사용하는 값 (무엇을 검정하는지에 대한 설정)
(3) 기각역의 설정: 기각역은 확률분포에서 귀무가설을 기각하는 영역, 기각역에 검정통계량이 위치하면 귀무가설을 기각
(4) 검정통계량 계산 : (표본평균-모평균)/표본 표준편차
. 신뢰 수준: 가설을 검정할 때 어느 정도로 검정할 것인지에 대한 수준
. 유의 수준(알파값): 가설을 검정할 때 일정 수준을 벗어나면 귀무가설이 오류라고 판단하는 수준. 유의 수준의 수학적 의미는 기각역들의 합이며, 1에서 신뢰 수준을 뺀 값
(5) 통계적인 의사결정(가설검정): 양측검정과 단측검정. 통계적인 의사결정 단계에서는 계산한 검정 통계량을 t값 분포도와 비교하여 기각역에 속하는지 아닌지를 판단한다.
(6) 분석 모델링 설계와 검정- 추정 방법에 대한 기술 검토
※ 통계추정은 가설검정과 관련 없다.
01. 분석 환경 구축 - 중요도 하(★)
1. 분석 도구 선정
- R: 객체지향 언어, 고속메모리 처리, 다양한 자료구조, 최신 패키지 제공, 시각화
(1) R의 장점: 다양한 패키지, 시각화 기능에 특화
(2) R의 단점: 대용량 메모리 처리가 어려우며 보안 기능이 취약, 별도 모듈 연동이 아니면 웹 브라우저에서 사용 불가
- 파이썬: 플랫폼 독립적, 인터프리터식, 객체지향적 대화형 언어
(1) 파이썬의 장점: 영어 문장 형식으로 구현된 빠른 개발 속도, 재사용 가능한 모듈, 다른 언어 프로그램들과 연동성이 높음
(2) 컴파일 없이 인터프리터가 한 줄씩 실행하는 방식으로 실행속도가 느림(바이트 코드를 일부 생산하거나 JIT 컴파일러를 사용하여 보완)
2. 데이터 분할
- 데이터 분할 정의: 학습데이터(training), 평가데이터(validation), 검증용 테스트 데이터(test) 분할 ▶ 7:3, 8:2 또는 4:3:3, 5:3:2로 정한다.
. 평가데이터는 추정한 분석 모델이 과대/과소적합인지 모형의 성능을 평가하기 위한 데이터
. 검증용 테스트 데이터는: 최종적으로 일반화된 분석 모형을 검증하는 테스트를 위한 데이터
- 과대적합 방지를 위해 데이터 분할, k-fold교차검증, 정규화 등의 방법이 있다.
- 과소적합: 모형이 단순하여 잘 학습하지 못하는 것을 과소적합이라 한다.
- 일반화: 학습데이터를 통해 생성된 모델이 평가 데이터를 통한 성능 평가 외에도 검증용 테스트 데이터를 통해 정확하게 예측하는 모델을 일반화된 모형이라고 한다.
※ 참고서적
서명 | 이기적 빅데이터분석기사 필기2022 |
저자 | 나홍석, 배원성, 이건길, 이혜영 공저, 고려사이버대학교AI, 빅데이터 연구소 |
출판사 | 영진닷컴 |
'데이터분석과 AI > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] Part04. 빅데이터 결과 해석-Ch01. 분석모형 평가 및 개선 (0) | 2023.04.07 |
---|---|
[빅데이터분석기사 필기] Part03. 빅데이터 모델링-Ch02. 분석기법 적용 (1) | 2023.04.07 |
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch03. 통계기법의 이해 (0) | 2023.04.05 |
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch02. 데이터 탐색 (0) | 2023.04.02 |
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch01. 데이터 전처리 (0) | 2023.04.01 |
댓글