본문 바로가기
728x90

빅분기36

[빅데이터분석기사 실기][작업형3] 상관계수 상관 계수는 두 변수 간의 선형 관계의 강도와 방향을 측정합니다. 상관 계수의 범위는 -1에서 1까지이며 여기서 -1은 완벽한 음의 상관관계를 나타내고 1은 완벽한 양의 상관관계를 나타내며 0은 상관관계가 없음을 나타냅니다. 상관 계수가 양수(1에 가까울수록)이면 한 변수가 증가하면 다른 변수도 증가하는 경향이 있음을 나타냅니다. 예를 들어, 공부한 시간과 시험 점수 사이의 관계를 조사하는 경우 양의 상관 계수는 공부를 더 많이 하는 학생이 더 높은 점수를 얻는 경향이 있음을 나타냅니다. 반면에 상관 계수가 음수(-1에 가까울수록)이면 한 변수가 증가하면 다른 변수는 감소하는 경향이 있음을 나타냅니다. 예를 들어 온도와 아이스크림 판매 간의 관계를 조사하는 경우 음의 상관 계수는 온도가 상승함에 따라 아.. 2023. 5. 20.
[빅데이터분석기사 실기][작업형3] 정규성 검정(Shapiro-Wilk Test) Shapiro-Wilk 검정은 데이터 샘플의 정규성을 평가하는 데 사용되는 통계 테스트입니다. Shapiro-Wilk 검정은 정규성을 가정하여 표본 데이터와 기댓값 간의 상관관계를 기반으로 검정 통계량을 계산합니다. 정규성에서 관측된 편차를 우연히 얻을 확률을 나타내는 p-값을 생성합니다. p-값이 선택한 유의 수준(예: 0.05) 보다 작으면 데이터가 정규 분포에서 크게 벗어났다는 것을 나타냅니다. 이때 귀무가설(H0)은 "데이터가 정규분포를 따른다." 대립가설(H1)은 "데이터가 정규분포를 따르지 않는다."입니다. 데이터 분석에서 데이터의 정규성이 기본적인 가정이므로, 이것을 깨는 것(증명하는 것)이 대립가설로 정해집니다. 앞서 배운 t검정과 반대인 느낌적인 느낌을 가지고 있어서, 혼돈이 올 수 있습.. 2023. 5. 18.
[빅데이터분석기사 실기][작업형3] t검정(대응표본, 독립표본, 단일표본) 간단 요약 - 대응표본 가설검정은 시점 차이 등에 따라 쌍을 이루는 관찰이 있을 때 사용한다. - 독립표본 가설검정은 두 독립 집단의 측정치를 비교할 때 사용한다. - 단일표본 가설검정은 알려지거나 가정한 평균과 단일 집단의 평균을 비교할 때 사용한다. - 세 가지 가설 검정은 모수 검정으로서 데이터가 정규분포를 따른다고 가정한다. t-검정에 대해서는 아래 자료를 참고: https://mindscale.kr/course/basic-stat-python/15/ 대응표본 가설 검정 대응표본 가설 검정은 동일한 집단의 관측값이 서로 다른 조건 또는 서로 다른 시점에 따라 차이가 있는 경우, 관측치의 평균 사이에 유의한 차이가 있는지 확인합니다. 예를 들어 개인 그룹이 있고 치료 전후에 혈압을 측정한다고 가정하.. 2023. 5. 18.
[빅데이터분석기사 필기] Part04. 빅데이터 결과 해석-Ch02. 분석결과 해석 및 활용 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 분석결과 해석 - 중요도 하(★) 1. 분석 모델별 결과 해석 - 분석모형 해석 (1) 회귀모델: MAE, MSE, MAPE, RMSE, RMSLE, R^2(R squared), 수정된 R^2(adjusted R squared) . 잔차는 회귀모형으로 실제 값과 예측 값의 차이를 의미하는 것이며, 잔차에는 패턴이나 추세가 있어서는 안 된다. . 결정계수는 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표 . 딥러닝 모델 해석에 사용하는 오차율은 상대오차나 평균 제곱근 편차를 사용한다. (2) 분류모델: 각각의 경우에 따라 클래스 별로 속할 확률의 정확도를 살펴본다. . 혼동행렬.. 2023. 4. 17.
[빅데이터분석기사 필기] Part03. 빅데이터 모델링-Ch02. 분석기법 적용 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 분석기법 - 중요도 상(★★★) 1. 분석기법 개요 - 학습 유형에 따른 데이터 분석 모델: 지도학습, 비지도학습, 준지도학습, 강화학습 (1) 지도학습: 정답이 있는 데이터를 활용해 학습, 대표적으로 분류(Classification)와 회귀(Regression)로 구분 (2) 비지도학습: 정답 없는 데이터를 컴퓨터 스스로 학습하여 숨겨진 의미, 패턴을 찾아내고 구조화, 빅데이터 분석 프로젝트에서 초기 데이터가 동질적인 소수집단으로 이루어져 있는지, 이질적인 많은 집단으로 구성되어 있는지 탐색하는 데에도 활용될 수 있다. . 비지도학습의 종류로 군집분석, 연관성분석, 인공신경망, 오토.. 2023. 4. 7.
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch01. 데이터 전처리 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 데이터 정제 - 중요도 하(★) 1. 데이터에 내재된 변수의 이해 - 데이터 관련 정의: 데이터, 단위(Unit), 관측값, 변수, 원자료(Raw Data) (1) 단위(Unit): 관찰되는 항목 또는 대상 - 데이터의 종류 (1) 단변량 자료: 자료의 특성을 대표하는 특성 변수가 하나 (2) 다변량 자료: 자료의 특성을 대표하는 특성 변수가 둘 이상 (3) 질적 자료: 정성적 또는 범주형 자료, 명목자료, 서열자료 등 이질적 자료로 분류 . 명목자료: 측정대상이 범주나 종류에 대해 구분되는 것을 수치 또는 기호로 분류되는 자료(ex. 전화번호 국번) . 서열자료: 명목자료와 비슷하나.. 2023. 4. 1.
[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch03. 데이터 수집 및 저장 계획 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 데이터 수집 및 전환 - 중요도 하(★) 1. 데이터 수집 - 여러 장소에 있는 데이터를 한 곳으로 모으는 것 - 데이터 수집 수행 자료: 용어집, 원천 데이터 소유 기관 정보, 서비스 흐름도, 데이터 명세서, 각종 매뉴얼, 비즈니스 모델 - 비즈니스 도메인과 원천 데이터 정보 수집: 비즈니스 모델, 용어집, 프로세스, 도메인 전문가 인터뷰, 원천 데이터의 수집 가능성, 보안, 정확성, 수집 난이도와 비용 (신속성 X) - 내외부 데이터 수집: 내부 데이터는 실시간 수집, 외부데이터는 일괄 수집, 일정 주기 수집(이걸 이렇게 딱 정할 수 있나..) - 데이터의 특징 : 단순한 객체로도.. 2023. 3. 30.
[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch02. 데이터 분석 계획 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다.01 분석 방안 수립 - 중요도 상(★★★)1. 데이터 분석- 데이터 분석: 인사이트를 발굴하고 이를 공유하여 의사결정을 지원하는 것을 목표로 데이터를 정의, 수집 변환, 모델링, 시각화하는 과정이다. - 빅데이터를 활용하기 위한 장애물은 비용보다 데이터 분석을 수행하기 위한 분석적 방법과 성과에 대한 이해의 부족이다. - 데이터 분석 시 고려사항: 데이터 분석은 규모가 아니라 어떤 시각과 통찰을 얻을 수 있는가의 문제이다. 2. 데이터 분석 기획- 어떠한 목표를 달성하기 위해 어떠한 데이터를 가지고 어떤 방식으로 수행할 것인가에 대한 일련의 계획을 수립한다. - 분석기획은 분석 과제 및 프로.. 2023. 3. 29.
[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch01. 빅데이터의 이해 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 빅데이터 개요 및 활용 - 중요도 하(★) 1. 데이터와 정보 - 데이터의 정의 : 추론과 추정의 근거를 이루는 사실 - 데이터의 특징 : 단순한 객체로도 가치가 있으며, 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다. - 데이터의 구분 정량적 데이터 정성적 데이터 유형 정형, 반정형 비정형 특징 여러 요소의 결합으로 의미 부여 객체 하나가 함축된 의미 내포 관점 객관적 주관적 구성 수치, 기호 문자, 언어 형태 데이터베이스, 스프레드시트 웹 로그, 텍스트 파일 위치 DBMS, 로컬 시스템 등 내부 웹사이트 모바일 플랫폼 등 외부 분석 쉬움 어려움 - 데이터의 유형 (품질과는 무.. 2023. 3. 26.
728x90