본문 바로가기
데이터분석과 AI/빅데이터 분석기사

[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch01. 빅데이터의 이해

by 우공80 2023. 3. 26.
728x90

빅데이터 분석기획 빅데이터의 이해

※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다.

01. 빅데이터 개요 및 활용 - 중요도 하(★)

1. 데이터와 정보

- 데이터의 정의 : 추론과 추정의 근거를 이루는 사실
- 데이터의 특징 : 단순한 객체로도 가치가 있으며, 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다.
- 데이터의 구분

  정량적 데이터 정성적 데이터
유형 정형, 반정형 비정형
특징 여러 요소의 결합으로 의미 부여 객체 하나가 함축된 의미 내포
관점 객관적 주관적
구성 수치, 기호 문자, 언어
형태 데이터베이스, 스프레드시트 웹 로그, 텍스트 파일
위치 DBMS, 로컬 시스템 등 내부 웹사이트 모바일 플랫폼 등 외부
분석 쉬움 어려움

- 데이터의 유형 (품질과는 무관함)
   (1) 정형 데이터(Structured Data)): 정해진 형식과 구조에 맞게 저장(DBMS 등), 주로 숫자
   (2) 반정형 데이터(Semi-structured Data): JSON, XML, RDF, HTML 등
   (3) 비정형 데이터(Unstructured Data): 동영상, 이미지, 음성, 문서, 메일 등
- 데이터의 기능: 데이터를 기반으로 한 암묵지와 형식지의 상호작용이 중요 
   암묵지는 학습과 경험을 통해 개인에게 체화되어 있지만, 외부에 표출되지 않은 무형의 지식(직관, 노하우)
- 지식창조 매커니즘: 공통화 > 표출화 > 연결화(체계화) > 내면화 (암묵지와 형식지 상호작용)
- 데이터 > 정보 > 지식 > 지혜 

2. 데이터베이스

- 데이터베이스의 특징: 통합, 저장, 공용, 변화
- 데이터베이스의 활용(OLTP > OLAP)
  (1) OLTP(OnLine Tranaction Processing) : 데이터 관리 및 갱신 
  (2) OLAP(OnLine Analytical Processing) : 데이터 분석 
- 데이터 웨어하우스(DW): 의사결정을 위해 데이터를 축적/분석하는 시스템
- 데이터 웨어하우스의 특징: 주제지향성(주제별 분리 X), 통합성, 시계열성, 비휘발성
- 데이터 웨어하우스의 구성요소: 데이터 모델, ETL/ODS, 메타데이터, OLAP, 데이터마이닝, 분석 Tool, 경영기반 솔루션
- ETL:  기업의 내, 외부로부터 데이터를 추출, 가공하여, 데이터웨어하우스에 적재한다.(Extract, Transform, Load)
- DW 메타데이터: 데이터 모델에 대한 스키마 정보

3. 빅데이터 개요

- 빅데이터는 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출
- 빅데이터 등장과 변화
  (1) 데이터 처리 시점이 사전 처리에서 사후 처리로 이동
  (2) 데이터 가치 판단 기준이 질보다 양으로 중요도 변경
  (3) 데이터 분석이 이론적 인과관계에서 단순 상관관계로 변화
- 빅데이터의 특징
  (1) 3V: 규모(Volume), 유형(Variety), 속도(Velocity)
  (2) 5V: 3V+ 품질(Veracity), 가치(Value)
- 전통적 데이터와 빅데이터 비교

  전통적 데이터 빅데이터
규모 기가 테라
처리단위 시간 또는 일단위 실시간
유형 정형 정형, 반정형, 비정형
처리방식 중앙집중식 분산 처리
시스템 RDBMS Hadoop, HDFS, Hbase, NoSQL

- 빅데이터의 활용을 위한 3요소: 자원(빅데이터), 기술(빅데이터플랫폼, AI기술), 인력(알고리즈미스트, 데이터사이언티스트)
- 빅데이터의 활용을 위한 기본 테크닉: 연관규칙학습, 유형분석, 유전 알고리즘, 기계학습, 회귀분석, 감정분석, 소셜네트워크분석

4. 빅데이터의 가치

- 빅데이터의 기능과 효과
 (1) 이를 활용하는 기존 사업자에게 경쟁 우위 제공
 (2) 잠재적 경쟁자에게는 진입장벽
 (3) 고객 세분화, 맞춤형 개인화
 (4) 의사결정 지원
 (5) R&D 및 관리 효율성 제고
- 빅데이터의 가치 측정의 어려움
 (1) 데이터 활용: 누가 언제 어디서 어떻게 활용할지 모른다.
 (2) 가치 창출 방식: 가공 방식에 따라 기존에 없던 가치를 창출할 수 있다.
 (3) 분석 기술 발전: 새로운 분석 기법이 등장하면, 새로운 가치를 찾을 수 있다.
 (4) 데이터 수집 원가: 목적에 따라 수집/가공 비용이 달라질 수 있다.

5. 데이터 산업의 이해

- 데이터 산업의 진화: 처리 > 통합 > 분석 > 연결 > 권리 시대로 진화
 (1) 데이터 처리 시대: 파일형태, EDPS 도입, 업무처리의 대상
 (2) 데이터 통합 시대: 데이터 모델링, 데이터베이스 관리 시스템 등장
 (3) 데이터 분석 시대: 빅데이터 기술(하둡, 스파크) 등장, 인공지능 기술 상용화
 (4) 데이터 연결 시대: 기업, 기관, 사람, 사물 등 모든 것이 연결되어 데이터를 주고받는다. (오픈 API 증가)
 (5) 데이터 권리 시대: 데이터에 대한 권리는 개인에게 있음(마이데이터 등장)
- 데이터 산업의 구조: 인프라 영역, 서비스 영역으로 구성됨(솔루션X, 컨설팅X)

6. 빅데이터 조직 및 인력

- 기업의 경쟁력 확보를 위한 비즈니스 질문 도출, 가치 발굴, 비즈니스 최적화를 위해 필요
- 데이터 사이언스 역량: 다양한 데이터로부터 지식과 인사이트를 추출
- 데이터 사이언스 실현을 위한 인문학적 요소: 스토리텔링, 커뮤니케이션, 창의력, 직관력, 비판적 시각, 열정(?)
- 데이터 사이언스의 한계: 인간 해석 개입, 사람마다 다른 해석과 결론, 정량적 분석도 가정에 근거
- 데이터 사이언티스트 요구 역량: IT(데이터엔지니어링, DW, 프로그래밍), Analytics(수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습), Business(커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화)
  (1) Hard Skill: 빅데이터에 대한 이론적 지식, 분석기술에 대한 숙련
  (2) Soft Skill: 통찰력 있는 분석(창의성, 호기심, 논리적 비판), 설득력 있는 전달(스토리텔링, 시각화), 다분야간 협력(커뮤니케이션)
 

02 빅데이터 기술 및 제도 - 중요도 상(★)

1. 빅데이터 플랫폼

- 빅데이터 플랫폼: 수집, 저장, 처리, 분석 등 전 과정을 통합적으로 제공하도록 준비된 환경
- 등장배경: 비즈니스 요구사항 변화, 데이터 규모와 처리 복잡도 증가, 데이터 구조의 변화와 신속성 요구, 데이터 분석 유연성 증대
- 빅데이터 플랫폼의 기능: 컴퓨팅, 저장 네트워크 부하를 해소하는 기술을 결합
- 빅데이터 플랫폼의 구조: 소프트웨어 계층, 플랫폼 계층, 인프라스트럭처 계층



2. 빅데이터 처리기술

- 빅데이터 처리 과정과 요소기술:
(1) 생성: 내부데이터, 외부데이터
(2) 수집: 크롤링, ETL을 통해 수집, 검색 및 수집, 변환 과정을 모두 포함, 로그 수집기, 센서, Open API활용
  . ETL: 다양한 원천 데이터를 취합해 추출하고 공통된 형식으로 변환하여 적재
(3) 저장(공유): 저렴, 쉽고, 빠르게, 많이 저장, 비정형 데이터 포함, 병렬 DBMS, 하둡, NoSQL
  . NoSQL(Non-only SQL): RDBMS와달리 데이터 모델을 단순화하여 설계, ACID(원자성, 일관성, 독립성, 지속성)을 포기, Cloudata, Hbase, Cassandra, MongoDB 등
  . CAP이론: NoSQL DBMS는 일관성(Consistency), 가용성(Availability), 분할 내성(Partition Tolerance) 중에서 최대 두 개의 속성만 보유 가능
  . 병렬 데이터베이스 관리 시스템: 다수의 마이크로프로세서를 이용하여 여러 디스크에 질의, 갱신, 입출력 등 동시처리(VoltDB, SAP HANA, Vertica 등)
  . 분산 파일 시스템: GFS, HDFS, 아마존 S3
  . 네트워크 저장 시스템: SAN(Storage Area Network), NAS(Network Attached Storage)
(4) 처리: 분산 병렬 및 In-memory방식 실시간, 하둡의 맵리듀스
  . 분산시스템 : 네트워크상에 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동, 각 노드는 독립적, 독립 컴퓨터의 집합이지만, 단일 시스템인 것처럼 수행되어야 한다.
  . 병렬시스템 : 문제 해결을 위해 CPU 등의 자원을 데이터 버스나 지역 통신 시스템으로 연결하여 구동하는 기술. 분할된 작업을 동시에 처리하여 계산 속도를 빠르게 한다.
  # 실제 시스템에서 명확히 구별하기 어려움.
  . 하둡: 분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원(HDFS(파일), HBASE(DB), 맵리듀스로 구성)
  . 스파크: 실시간 분산형 컴퓨팅 플랫폼 In-memory 방식
  . 맵리듀스: 효과적인 병렬 및 분산처리 지원(Split > Map > Shuffle > Reduce)
(5) 분석: 데이터 분석, 통계, 데이터 마이닝, 기계학습

  . 탐구요인분석(EFA: Exploratory Factor Analysis): 데이터 간 상호 관계 파악

  . 확인요인분석(CFA: Confirmatory Factor Analysis): 관찰된 변수들의 집합 요소 구조 파악을 위한 통계적 기법 활용

  . 데이터 분석 방법: 분류, 군집화, 기계학습, 텍스트 마이닝, 웹마이닝, 오피니언 마이닝, 리얼리티 마이닝, 소셜 네트워크 분석, 감성 분석

(6) 시각화: 표, 그래프를 이용해 탐색 및 해석, 시각화 기술, 실시간 자료 시각화

3. 빅데이터와 인공지능

- 인공지능 ⊃ 기계학습 ⊃ 딥러닝

- 딥러닝의 특징: 깊은 구조에 의해 엄청난 양의 데이터를 학습

- 기계학습의 종류: 지도학습, 비지도 학습, 준지도학습, 강화학습(행동심리학 영향, 보상을 최대화, 탐색과 이용의 균형)

- 기계학습 응용분야

 (1) 지도학습

  . 분류: 이미지인식, 음성인식, 사기검출, 불량예측

  . 회귀: 시세/가격/주가/강우량 예측 등

(2) 비지도학습

  . 군집분석: 텍스트 토픽 분석, 고객 세그멘테이션

  . 오토인코더: 이상징후 탐지, 노이즈 제거, 텍스트 벡터화

  . 생성적 적대 신경망(GAN): 시뮬레이션 데이터 생성, 누락 데이터 생성, 패션 데이터 생성 등

 (3) 강화학습

  . 게임 플레이어, 로봇 학습, 공급망 최적화

- 전이학습(Transfer Learning): 이미 학습된 딥러닝 모형을 다른 문제를 해결하기 위해 사용하고자 할 때, 적은 양의 데이터로도 좋은 결과

- 전이학습 기반 사전학습 모형(Pre-trained Model): 학습데이터에 의한 인지능력을 갖춘 딥러닝 모형에 추가 데이터 학습

- BERT: 구글에서 발표한 언어인식 사전학습모형

- 빅데이터와 인공지능의 관계

 (1) 인공지능을 위한 양질의 학습 데이터의 확보가 성공적인 인공지능 구현과 직결

 (2) 학습데이터 확보 후 애노테이션(annotation)을 통해 학습 가능한 데이터로 가공하는 작업 필요(수작업, 노동집약적)

- 인공지능 기술 동향

 (1) 기계학습 프레임워크 보급 확대

 (2) 생성적 적대 신경망(GAN): 두 개의 인공신경망으로 구성된 딥러닝 이미지 생성 알고리즘

 (3) 오토인코더: 라벨이 설정되지 않은 학습데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망이다.

 (4) 설명가능한 인공지능(XAI, eXplainable AI): 결론 도출 과정에 대한 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공

 (5) 기계학습 자동화(Auto ML) : 기계학습의 전체 과정을 자동화

4. 개인정보 개요

- 개인정보의 정의: 살아 있는 개인에 관한 정보(개인정보의 정의는 개인정보보호법에 있음)

- 개인정보의 판단기준: 생존, 개인, 내용과 형태의 제한 없음, 개인을 바로, 혹은 다른 정보와 결합하여 식별할 수 있는 정보

- 개인정보의 처리와 활용: 이전, 처리 위탁, 제삼자 제공

- 빅데이터 개인정보보호 가이드라인(방통위): 비식별화, 투명성 확보, 재식별 시 조치, 민감정보 및 비밀정보 처리, 기술적 관리적 보호조치

5. 개인정보 법, 제도

- 개인정보보호법: 당사자의 동의 없는 개인정보 수집 및 활용하거나 제삼자에게 제공하는 것을 금지하는 등 개인정보보호를 강화, 5년 이하 징역, 5천만 원 이하 벌금

- 정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법): 정보통신망의 개발과 보급 등 이용 촉진과 함께 통신망을 통해 활용되고 있는 정보보호에 관해 규정

- 신용정보의 이용 및 보호에 관한 법률(신용정보보호법): 개인 신용정보를 신용정보회사 등에 제공하고자 하는 경우에 해당 개인으로부터 서면 또는 공인전자서명이 있는 전자문서에 의한 동의 등을 얻어야 한다.

- 위 3가지를 데이터 3 법이라고 하며, 2020년 개정: 데이터 이용 활성화를 위한 '가명정보' 개념 도입 및 데이터 간 결합 근거 마련, 개인정보보호 관련 법률의 유사, 중복 규정을 정비 및 거버넌스 체계 효율화, 개인정보처리자 책임 강화, 개인정보의 판단기준 명확화

6. 개인정보 비식별화

- 비식별 조치: 개인을 알아볼 수 없도록 하는 조치(익명데이터는 수집 단계에서 개인을 식별할 수 없으므로 비식별과는 다르다)

- 익명화: 빅데이터를 활용하는 과정에서 사생활 침해를 방지하기 위하여 데이터에 포함된 개인정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 방법

- 개인정보 비식별화 조치 가이드라인의 단계별 조치사항: 사전 검토 > 비식별 조치 > 적정성 평가 > 사후 관리

- 개인정보 비식별화 조치 가이드라인의 조치 방법: 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹, (데이터 표본화는 비식별화 아님)


7. 개인정보 활용

- 데이터 수집, 활용, 처리의 위기요인과 통제 방안이 있다.

- 데이터 수집 위기: 사생활 침해, 동의에서 책임으로 강화

- 데이터 활용 위기: 책임원칙 훼손, 결과 기반 책임 원칙

- 데이터 처리 위기: 데이터 오용으로 위기 발생 - 빅데이터는 과거에 일어났던 일로 인해 기록된 데이터에 의존

  빅데이터를 기반으로 미래를 예측하는 것은 어느 정도 정확도를 가질 수 있지만, 항상 맞는 것은 아니다. 

- 빅데이터 사용자가 데이터를 과신할 때 큰 문제가 발생할 가능성이 높다.

 

※ 참고서적

서명 이기적 빅데이터분석기사 필기2022
저자 나홍석, 배원성, 이건길, 이혜영 공저, 고려사이버대학교AI, 빅데이터 연구소
출판사 영진닷컴
728x90

댓글