본문 바로가기
728x90

빅데이터분석기사40

[빅데이터분석기사 실기][작업형3] 상관계수 상관 계수는 두 변수 간의 선형 관계의 강도와 방향을 측정합니다. 상관 계수의 범위는 -1에서 1까지이며 여기서 -1은 완벽한 음의 상관관계를 나타내고 1은 완벽한 양의 상관관계를 나타내며 0은 상관관계가 없음을 나타냅니다. 상관 계수가 양수(1에 가까울수록)이면 한 변수가 증가하면 다른 변수도 증가하는 경향이 있음을 나타냅니다. 예를 들어, 공부한 시간과 시험 점수 사이의 관계를 조사하는 경우 양의 상관 계수는 공부를 더 많이 하는 학생이 더 높은 점수를 얻는 경향이 있음을 나타냅니다. 반면에 상관 계수가 음수(-1에 가까울수록)이면 한 변수가 증가하면 다른 변수는 감소하는 경향이 있음을 나타냅니다. 예를 들어 온도와 아이스크림 판매 간의 관계를 조사하는 경우 음의 상관 계수는 온도가 상승함에 따라 아.. 2023. 5. 20.
[빅데이터분석기사 실기][작업형3] 정규성 검정(Shapiro-Wilk Test) Shapiro-Wilk 검정은 데이터 샘플의 정규성을 평가하는 데 사용되는 통계 테스트입니다. Shapiro-Wilk 검정은 정규성을 가정하여 표본 데이터와 기댓값 간의 상관관계를 기반으로 검정 통계량을 계산합니다. 정규성에서 관측된 편차를 우연히 얻을 확률을 나타내는 p-값을 생성합니다. p-값이 선택한 유의 수준(예: 0.05) 보다 작으면 데이터가 정규 분포에서 크게 벗어났다는 것을 나타냅니다. 이때 귀무가설(H0)은 "데이터가 정규분포를 따른다." 대립가설(H1)은 "데이터가 정규분포를 따르지 않는다."입니다. 데이터 분석에서 데이터의 정규성이 기본적인 가정이므로, 이것을 깨는 것(증명하는 것)이 대립가설로 정해집니다. 앞서 배운 t검정과 반대인 느낌적인 느낌을 가지고 있어서, 혼돈이 올 수 있습.. 2023. 5. 18.
[빅데이터분석기사 실기][작업형3] t검정(대응표본, 독립표본, 단일표본) 간단 요약 - 대응표본 가설검정은 시점 차이 등에 따라 쌍을 이루는 관찰이 있을 때 사용한다. - 독립표본 가설검정은 두 독립 집단의 측정치를 비교할 때 사용한다. - 단일표본 가설검정은 알려지거나 가정한 평균과 단일 집단의 평균을 비교할 때 사용한다. - 세 가지 가설 검정은 모수 검정으로서 데이터가 정규분포를 따른다고 가정한다. t-검정에 대해서는 아래 자료를 참고: https://mindscale.kr/course/basic-stat-python/15/ 대응표본 가설 검정 대응표본 가설 검정은 동일한 집단의 관측값이 서로 다른 조건 또는 서로 다른 시점에 따라 차이가 있는 경우, 관측치의 평균 사이에 유의한 차이가 있는지 확인합니다. 예를 들어 개인 그룹이 있고 치료 전후에 혈압을 측정한다고 가정하.. 2023. 5. 18.
[빅데이터 분석기사 필기] 제6회 필기 시험 합격 후기 지난 4.8(토)에 빅데이터 분석기사 6회 필기시험을 보고 왔습니다. adsp 자격증이 이미 있기 때문에 비슷한 수준이 아닐까 생각하였고, 당근마켓에서 2022 이기적 수험서 사서 2주 정도 공부했습니다. 이기적에서 제공하는 CBT 모의고사를 보았을 때, 합격 수준으로 점수가 나와서, 많은 공부가 필요하지는 않겠다고 생각했습니다. 그래도 블로그에 내용 정리하면서, 이기적(2022) 1회 독은 했고, CBT모의고사로 기출문제 2~3회 정도 풀었습니다. CBT모의고사는 문제 은행식인데, 문제 풀(Pool)이 작은지, 비슷한 문제가 반복되어서 시험 보러 가기 전날에는 80~90점 정도 나왔습니다. 이 정도면 합격하겠지.. 생각했는데, 막상 시험을 보니, 너무 어려웠습니다. 시험 끝나고, 데이터 전문가 포럼(네.. 2023. 4. 21.
[빅데이터분석기사 필기] Part04. 빅데이터 결과 해석-Ch02. 분석결과 해석 및 활용 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 분석결과 해석 - 중요도 하(★) 1. 분석 모델별 결과 해석 - 분석모형 해석 (1) 회귀모델: MAE, MSE, MAPE, RMSE, RMSLE, R^2(R squared), 수정된 R^2(adjusted R squared) . 잔차는 회귀모형으로 실제 값과 예측 값의 차이를 의미하는 것이며, 잔차에는 패턴이나 추세가 있어서는 안 된다. . 결정계수는 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표 . 딥러닝 모델 해석에 사용하는 오차율은 상대오차나 평균 제곱근 편차를 사용한다. (2) 분류모델: 각각의 경우에 따라 클래스 별로 속할 확률의 정확도를 살펴본다. . 혼동행렬.. 2023. 4. 17.
[빅데이터분석기사 필기] Part04. 빅데이터 결과 해석-Ch01. 분석모형 평가 및 개선 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 분석모형 평가 - 중요도 상(★★★) 1. 평가 지표 - 지도학습-분류모델 평가 지표 - 오차행렬을 통해 평가한다. (1)~(5) 오차행렬(혼동행렬), 정확도, 정밀도, 재현율, F1 Score는 아래 포스팅으로 대체한다. https://woogong80.tistory.com/67 Confusion Matrix(혼동 행렬)과 평가지표 이해하기 Confution Matrix란? 오늘 정리해 볼 것은 Confusion Matrix입니다. 시스템이 분류 문제를 얼마나 헷갈려하는지 알 수 있는 표라고 Confusion Matrix인데, 이 표를 보고 있는 사람도 혼동이 와서 혼동행렬이라 wo.. 2023. 4. 7.
[빅데이터분석기사 필기] Part03. 빅데이터 모델링-Ch01. 분석 모형 설계 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 분석 절차 수립 - 중요도 하(★) 1. 분석 모형 선정 - 분석 목적: 의사결정, 불확실성해소, 요약, 인과관계 파악, 예측 - 빅데이터 분석 근본 목적: 과거의 데이터를 토대로 원인에 대해 분석하고 그 결과로 미래를 예측 . 데이터는 후행성 성격을 지니지만 선행성의 성격도 가지고 있다. . 가트너 그룹 빅데이터분석 목적: 고객 인사이트, 제품 및 절차 효율성, 디지털 제품 및 서비스, 운영의 탁월성, 디지털 마케팅, 위기관리시스템 - 분석 모형 선정 프로세스 . 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석목표/조건 정의 . 데이터 수집, 정리 및 도식화 . 데.. 2023. 4. 6.
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch03. 통계기법의 이해 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 기술통계 - 중요도 중(★★) 1. 데이터 요약 - 데이터의 분포가 가지는 특성을 찾아내서 본격적인 분석 이전에 기본적이 ㄴ특징을 수치적으로 정량화하여 기술한다. 주로 기초 통계량을 산출하여 결과를 도출한다. 탐색적 데이터 분석: 수집된 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것으로 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정이다. 2. 표본추출 - 모집단(연구, 실험의 결과가 일반화된 큰 집단, 정보를 얻고자 하는 관심 대상의 전체집합으로 정의) 표본, 표본추출 - 전수조사와 표본조사 (1) 전수조사: 모집단 전체 .. 2023. 4. 5.
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch02. 데이터 탐색 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 데이터 탐색의 기초 - 중요도 중(★★) 1. 데이터 탐색의 개요 - 탐색적 데이터 분석: 수집된 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것으로 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정이다. - 탐색적 데이터 분석의 필요성: 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해하며 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있다. 문제점 발견 시 본 분석 전 데이터의 수집 의사를 결정할 수 있다. 문제정의 단계에서 인지 못한 새로운 양상, 패턴을 발견할 수 있다. 새로운 양상을 발견 시 초.. 2023. 4. 2.
728x90