※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다.
01. 빅데이터 개요 및 활용 - 중요도 하(★)
1. 데이터와 정보
- 데이터의 정의 : 추론과 추정의 근거를 이루는 사실
- 데이터의 특징 : 단순한 객체로도 가치가 있으며, 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다.
- 데이터의 구분
정량적 데이터 | 정성적 데이터 | |
유형 | 정형, 반정형 | 비정형 |
특징 | 여러 요소의 결합으로 의미 부여 | 객체 하나가 함축된 의미 내포 |
관점 | 객관적 | 주관적 |
구성 | 수치, 기호 | 문자, 언어 |
형태 | 데이터베이스, 스프레드시트 | 웹 로그, 텍스트 파일 |
위치 | DBMS, 로컬 시스템 등 내부 | 웹사이트 모바일 플랫폼 등 외부 |
분석 | 쉬움 | 어려움 |
- 데이터의 유형 (품질과는 무관함)
(1) 정형 데이터(Structured Data)): 정해진 형식과 구조에 맞게 저장(DBMS 등), 주로 숫자
(2) 반정형 데이터(Semi-structured Data): JSON, XML, RDF, HTML 등
(3) 비정형 데이터(Unstructured Data): 동영상, 이미지, 음성, 문서, 메일 등
- 데이터의 기능: 데이터를 기반으로 한 암묵지와 형식지의 상호작용이 중요
암묵지는 학습과 경험을 통해 개인에게 체화되어 있지만, 외부에 표출되지 않은 무형의 지식(직관, 노하우)
- 지식창조 매커니즘: 공통화 > 표출화 > 연결화(체계화) > 내면화 (암묵지와 형식지 상호작용)
- 데이터 > 정보 > 지식 > 지혜
2. 데이터베이스
- 데이터베이스의 특징: 통합, 저장, 공용, 변화
- 데이터베이스의 활용(OLTP > OLAP)
(1) OLTP(OnLine Tranaction Processing) : 데이터 관리 및 갱신
(2) OLAP(OnLine Analytical Processing) : 데이터 분석
- 데이터 웨어하우스(DW): 의사결정을 위해 데이터를 축적/분석하는 시스템
- 데이터 웨어하우스의 특징: 주제지향성(주제별 분리 X), 통합성, 시계열성, 비휘발성
- 데이터 웨어하우스의 구성요소: 데이터 모델, ETL/ODS, 메타데이터, OLAP, 데이터마이닝, 분석 Tool, 경영기반 솔루션
- ETL: 기업의 내, 외부로부터 데이터를 추출, 가공하여, 데이터웨어하우스에 적재한다.(Extract, Transform, Load)
- DW 메타데이터: 데이터 모델에 대한 스키마 정보
3. 빅데이터 개요
- 빅데이터는 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출
- 빅데이터 등장과 변화
(1) 데이터 처리 시점이 사전 처리에서 사후 처리로 이동
(2) 데이터 가치 판단 기준이 질보다 양으로 중요도 변경
(3) 데이터 분석이 이론적 인과관계에서 단순 상관관계로 변화
- 빅데이터의 특징
(1) 3V: 규모(Volume), 유형(Variety), 속도(Velocity)
(2) 5V: 3V+ 품질(Veracity), 가치(Value)
- 전통적 데이터와 빅데이터 비교
전통적 데이터 | 빅데이터 | |
규모 | 기가 | 테라 |
처리단위 | 시간 또는 일단위 | 실시간 |
유형 | 정형 | 정형, 반정형, 비정형 |
처리방식 | 중앙집중식 | 분산 처리 |
시스템 | RDBMS | Hadoop, HDFS, Hbase, NoSQL |
- 빅데이터의 활용을 위한 3요소: 자원(빅데이터), 기술(빅데이터플랫폼, AI기술), 인력(알고리즈미스트, 데이터사이언티스트)
- 빅데이터의 활용을 위한 기본 테크닉: 연관규칙학습, 유형분석, 유전 알고리즘, 기계학습, 회귀분석, 감정분석, 소셜네트워크분석
4. 빅데이터의 가치
- 빅데이터의 기능과 효과
(1) 이를 활용하는 기존 사업자에게 경쟁 우위 제공
(2) 잠재적 경쟁자에게는 진입장벽
(3) 고객 세분화, 맞춤형 개인화
(4) 의사결정 지원
(5) R&D 및 관리 효율성 제고
- 빅데이터의 가치 측정의 어려움
(1) 데이터 활용: 누가 언제 어디서 어떻게 활용할지 모른다.
(2) 가치 창출 방식: 가공 방식에 따라 기존에 없던 가치를 창출할 수 있다.
(3) 분석 기술 발전: 새로운 분석 기법이 등장하면, 새로운 가치를 찾을 수 있다.
(4) 데이터 수집 원가: 목적에 따라 수집/가공 비용이 달라질 수 있다.
5. 데이터 산업의 이해
- 데이터 산업의 진화: 처리 > 통합 > 분석 > 연결 > 권리 시대로 진화
(1) 데이터 처리 시대: 파일형태, EDPS 도입, 업무처리의 대상
(2) 데이터 통합 시대: 데이터 모델링, 데이터베이스 관리 시스템 등장
(3) 데이터 분석 시대: 빅데이터 기술(하둡, 스파크) 등장, 인공지능 기술 상용화
(4) 데이터 연결 시대: 기업, 기관, 사람, 사물 등 모든 것이 연결되어 데이터를 주고받는다. (오픈 API 증가)
(5) 데이터 권리 시대: 데이터에 대한 권리는 개인에게 있음(마이데이터 등장)
- 데이터 산업의 구조: 인프라 영역, 서비스 영역으로 구성됨(솔루션X, 컨설팅X)
6. 빅데이터 조직 및 인력
- 기업의 경쟁력 확보를 위한 비즈니스 질문 도출, 가치 발굴, 비즈니스 최적화를 위해 필요
- 데이터 사이언스 역량: 다양한 데이터로부터 지식과 인사이트를 추출
- 데이터 사이언스 실현을 위한 인문학적 요소: 스토리텔링, 커뮤니케이션, 창의력, 직관력, 비판적 시각, 열정(?)
- 데이터 사이언스의 한계: 인간 해석 개입, 사람마다 다른 해석과 결론, 정량적 분석도 가정에 근거
- 데이터 사이언티스트 요구 역량: IT(데이터엔지니어링, DW, 프로그래밍), Analytics(수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습), Business(커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화)
(1) Hard Skill: 빅데이터에 대한 이론적 지식, 분석기술에 대한 숙련
(2) Soft Skill: 통찰력 있는 분석(창의성, 호기심, 논리적 비판), 설득력 있는 전달(스토리텔링, 시각화), 다분야간 협력(커뮤니케이션)
02 빅데이터 기술 및 제도 - 중요도 상(★★★)
1. 빅데이터 플랫폼
- 빅데이터 플랫폼: 수집, 저장, 처리, 분석 등 전 과정을 통합적으로 제공하도록 준비된 환경
- 등장배경: 비즈니스 요구사항 변화, 데이터 규모와 처리 복잡도 증가, 데이터 구조의 변화와 신속성 요구, 데이터 분석 유연성 증대
- 빅데이터 플랫폼의 기능: 컴퓨팅, 저장 네트워크 부하를 해소하는 기술을 결합
- 빅데이터 플랫폼의 구조: 소프트웨어 계층, 플랫폼 계층, 인프라스트럭처 계층
2. 빅데이터 처리기술
- 빅데이터 처리 과정과 요소기술:
(1) 생성: 내부데이터, 외부데이터
(2) 수집: 크롤링, ETL을 통해 수집, 검색 및 수집, 변환 과정을 모두 포함, 로그 수집기, 센서, Open API활용
. ETL: 다양한 원천 데이터를 취합해 추출하고 공통된 형식으로 변환하여 적재
(3) 저장(공유): 저렴, 쉽고, 빠르게, 많이 저장, 비정형 데이터 포함, 병렬 DBMS, 하둡, NoSQL
. NoSQL(Non-only SQL): RDBMS와달리 데이터 모델을 단순화하여 설계, ACID(원자성, 일관성, 독립성, 지속성)을 포기, Cloudata, Hbase, Cassandra, MongoDB 등
. CAP이론: NoSQL DBMS는 일관성(Consistency), 가용성(Availability), 분할 내성(Partition Tolerance) 중에서 최대 두 개의 속성만 보유 가능
. 병렬 데이터베이스 관리 시스템: 다수의 마이크로프로세서를 이용하여 여러 디스크에 질의, 갱신, 입출력 등 동시처리(VoltDB, SAP HANA, Vertica 등)
. 분산 파일 시스템: GFS, HDFS, 아마존 S3
. 네트워크 저장 시스템: SAN(Storage Area Network), NAS(Network Attached Storage)
(4) 처리: 분산 병렬 및 In-memory방식 실시간, 하둡의 맵리듀스
. 분산시스템 : 네트워크상에 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동, 각 노드는 독립적, 독립 컴퓨터의 집합이지만, 단일 시스템인 것처럼 수행되어야 한다.
. 병렬시스템 : 문제 해결을 위해 CPU 등의 자원을 데이터 버스나 지역 통신 시스템으로 연결하여 구동하는 기술. 분할된 작업을 동시에 처리하여 계산 속도를 빠르게 한다.
# 실제 시스템에서 명확히 구별하기 어려움.
. 하둡: 분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원(HDFS(파일), HBASE(DB), 맵리듀스로 구성)
. 스파크: 실시간 분산형 컴퓨팅 플랫폼 In-memory 방식
. 맵리듀스: 효과적인 병렬 및 분산처리 지원(Split > Map > Shuffle > Reduce)
(5) 분석: 데이터 분석, 통계, 데이터 마이닝, 기계학습
. 탐구요인분석(EFA: Exploratory Factor Analysis): 데이터 간 상호 관계 파악
. 확인요인분석(CFA: Confirmatory Factor Analysis): 관찰된 변수들의 집합 요소 구조 파악을 위한 통계적 기법 활용
. 데이터 분석 방법: 분류, 군집화, 기계학습, 텍스트 마이닝, 웹마이닝, 오피니언 마이닝, 리얼리티 마이닝, 소셜 네트워크 분석, 감성 분석
(6) 시각화: 표, 그래프를 이용해 탐색 및 해석, 시각화 기술, 실시간 자료 시각화
3. 빅데이터와 인공지능
- 인공지능 ⊃ 기계학습 ⊃ 딥러닝
- 딥러닝의 특징: 깊은 구조에 의해 엄청난 양의 데이터를 학습
- 기계학습의 종류: 지도학습, 비지도 학습, 준지도학습, 강화학습(행동심리학 영향, 보상을 최대화, 탐색과 이용의 균형)
- 기계학습 응용분야
(1) 지도학습
. 분류: 이미지인식, 음성인식, 사기검출, 불량예측
. 회귀: 시세/가격/주가/강우량 예측 등
(2) 비지도학습
. 군집분석: 텍스트 토픽 분석, 고객 세그멘테이션
. 오토인코더: 이상징후 탐지, 노이즈 제거, 텍스트 벡터화
. 생성적 적대 신경망(GAN): 시뮬레이션 데이터 생성, 누락 데이터 생성, 패션 데이터 생성 등
(3) 강화학습
. 게임 플레이어, 로봇 학습, 공급망 최적화
- 전이학습(Transfer Learning): 이미 학습된 딥러닝 모형을 다른 문제를 해결하기 위해 사용하고자 할 때, 적은 양의 데이터로도 좋은 결과
- 전이학습 기반 사전학습 모형(Pre-trained Model): 학습데이터에 의한 인지능력을 갖춘 딥러닝 모형에 추가 데이터 학습
- BERT: 구글에서 발표한 언어인식 사전학습모형
- 빅데이터와 인공지능의 관계
(1) 인공지능을 위한 양질의 학습 데이터의 확보가 성공적인 인공지능 구현과 직결
(2) 학습데이터 확보 후 애노테이션(annotation)을 통해 학습 가능한 데이터로 가공하는 작업 필요(수작업, 노동집약적)
- 인공지능 기술 동향
(1) 기계학습 프레임워크 보급 확대
(2) 생성적 적대 신경망(GAN): 두 개의 인공신경망으로 구성된 딥러닝 이미지 생성 알고리즘
(3) 오토인코더: 라벨이 설정되지 않은 학습데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망이다.
(4) 설명가능한 인공지능(XAI, eXplainable AI): 결론 도출 과정에 대한 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공
(5) 기계학습 자동화(Auto ML) : 기계학습의 전체 과정을 자동화
4. 개인정보 개요
- 개인정보의 정의: 살아 있는 개인에 관한 정보(개인정보의 정의는 개인정보보호법에 있음)
- 개인정보의 판단기준: 생존, 개인, 내용과 형태의 제한 없음, 개인을 바로, 혹은 다른 정보와 결합하여 식별할 수 있는 정보
- 개인정보의 처리와 활용: 이전, 처리 위탁, 제삼자 제공
- 빅데이터 개인정보보호 가이드라인(방통위): 비식별화, 투명성 확보, 재식별 시 조치, 민감정보 및 비밀정보 처리, 기술적 관리적 보호조치
5. 개인정보 법, 제도
- 개인정보보호법: 당사자의 동의 없는 개인정보 수집 및 활용하거나 제삼자에게 제공하는 것을 금지하는 등 개인정보보호를 강화, 5년 이하 징역, 5천만 원 이하 벌금
- 정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법): 정보통신망의 개발과 보급 등 이용 촉진과 함께 통신망을 통해 활용되고 있는 정보보호에 관해 규정
- 신용정보의 이용 및 보호에 관한 법률(신용정보보호법): 개인 신용정보를 신용정보회사 등에 제공하고자 하는 경우에 해당 개인으로부터 서면 또는 공인전자서명이 있는 전자문서에 의한 동의 등을 얻어야 한다.
- 위 3가지를 데이터 3 법이라고 하며, 2020년 개정: 데이터 이용 활성화를 위한 '가명정보' 개념 도입 및 데이터 간 결합 근거 마련, 개인정보보호 관련 법률의 유사, 중복 규정을 정비 및 거버넌스 체계 효율화, 개인정보처리자 책임 강화, 개인정보의 판단기준 명확화
6. 개인정보 비식별화
- 비식별 조치: 개인을 알아볼 수 없도록 하는 조치(익명데이터는 수집 단계에서 개인을 식별할 수 없으므로 비식별과는 다르다)
- 익명화: 빅데이터를 활용하는 과정에서 사생활 침해를 방지하기 위하여 데이터에 포함된 개인정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 방법
- 개인정보 비식별화 조치 가이드라인의 단계별 조치사항: 사전 검토 > 비식별 조치 > 적정성 평가 > 사후 관리
- 개인정보 비식별화 조치 가이드라인의 조치 방법: 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹, (데이터 표본화는 비식별화 아님)
7. 개인정보 활용
- 데이터 수집, 활용, 처리의 위기요인과 통제 방안이 있다.
- 데이터 수집 위기: 사생활 침해, 동의에서 책임으로 강화
- 데이터 활용 위기: 책임원칙 훼손, 결과 기반 책임 원칙
- 데이터 처리 위기: 데이터 오용으로 위기 발생 - 빅데이터는 과거에 일어났던 일로 인해 기록된 데이터에 의존
빅데이터를 기반으로 미래를 예측하는 것은 어느 정도 정확도를 가질 수 있지만, 항상 맞는 것은 아니다.
- 빅데이터 사용자가 데이터를 과신할 때 큰 문제가 발생할 가능성이 높다.
※ 참고서적
서명 | 이기적 빅데이터분석기사 필기2022 |
저자 | 나홍석, 배원성, 이건길, 이혜영 공저, 고려사이버대학교AI, 빅데이터 연구소 |
출판사 | 영진닷컴 |
'데이터분석과 AI > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch03. 통계기법의 이해 (0) | 2023.04.05 |
---|---|
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch02. 데이터 탐색 (0) | 2023.04.02 |
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch01. 데이터 전처리 (0) | 2023.04.01 |
[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch03. 데이터 수집 및 저장 계획 (0) | 2023.03.30 |
[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch02. 데이터 분석 계획 (0) | 2023.03.29 |
댓글