본문 바로가기
728x90

데이터분석과 AI/빅데이터 분석기사41

[빅데이터분석기사 실기] 제6회 실기 시험 만점(100점) 합격 후기 올해 상반기 내내 준비한 제6회 빅데이터 분석기사 실기시험 결과가 오늘 발표되었습니다. 예상하긴 했지만, 100점이네요.^^ 좋은 결과 얻었던 비결?? 까지는 아니지만, 개인적으로 어떻게 준비했는지 공유드리겠습니다. 1. 시험 준비 전 수준 저는 회사에서 Product Manager로 일하고 있어서, 데이터를 접할 일이 잦고, 그래서, python을 자주 다루는 편입니다. 데이터분석가까지는 아니지만, 엑셀의 한계 때문에 쓰는 거죠. 그래서 통계적인 지식은 거의 없고, 머신러닝은 돌릴 줄은 아는 정도였습니다. (지금도 그렇긴 하지만요) 2. 시험 준비 pandas는 잘 다루는 편이라고 생각했기 때문에, 실기는 크게 걱정할 거 없을 것이라고 생각했고, 새로 생긴 작업형 3 유형만 잘 준비해야지 생각했습니다... 2023. 7. 7.
[빅데이터분석기사 실기][작업형3] 회귀분석 (statsmodel 활용) 제6회 빅데이터분석기사 시험에는 작업형 3 유형이 추가되었습니다. 이전에 공지된 바로는 시험환경에 설치되고, 사용 가능한 패키지 중에 scipy만 있고, statsmodels가 없었습니다. 그래서 statsmodels를 사용하는 문제는 출제되지 않을 것이라고 예상했습니다. 그런데, 실제 시험에서는 해당 패키지가 설치되어 있었고, statsmodels를 활용해야 풀 수 있는 문제가 출제되었습니다. statsmodels를 사용하지 않고 python을 계산기처럼 사용해도 풀 수는 있겠지만, 그건 코딩..이라고 하기는 그렇죠. (시험 유의사항에는 정작 계산기는 사용하면 안 된다고..) 결국 전원 정답처리되는 것으로 결정되었습니다. 이번 시험에서는 출제되지 않았지만, 저도 잘 모르는 부분이기도 하고, 향후 시험에.. 2023. 7. 4.
[빅데이터분석기사 실기][작업형1] 시간 데이터 다루기(datetime, timedelta) 제6회 빅데이터분석기사 실기 시험 첫 번째 문제로 datetime과 timedelta를 다루는 문제가 나왔습니다. 후기를 보면 이 문제에서 고생한 사람들이 많고, 저 또한 많은 시간을 소모했기에 정리해 둡니다. 1. datetime과 timedelta의 차이 'datetime' 클래스는 날짜 및 시간 정보를 모두 포함하여 특정 시점을 나타냅니다. 날짜와 시간을 전체적으로 작업하는 데 사용되며 특정 구성 요소(년, 월, 일, 시, 분 등) 추출과 같은 다양한 작업을 수행할 수 있습니다. timedelta 클래스는 두 datetime 개체 간의 기간 또는 차이를 나타냅니다. 특정 시간을 더하거나 빼는 등 'datetime' 객체에 대한 산술 연산을 수행하는 데 사용됩니다. datetime객체 - dateti.. 2023. 7. 3.
[빅데이터분석기사 실기][작업형3] 검정 방법의 선택 (수치형 2집단, 3집단 및 범주형) 빅데이터분석기사를 준비하면서 많은 검정 방법 중 무엇을 택해야 하는지 너무 헷갈려서 정리를 좀 해보았습니다. 이 순서도를 보시면서 하나씩 공부를 해나가시면 도움이 되실 것 같습니다. 수치형 2집단 > 범주형 > 수치형 3집단 순으로 공부를 하시면 됩니다. 제가 공부하고 정리한 글은 링크를 남겨두었습니다. (없는 것도 하나씩 채워나갈 예정) 1. 수치형 2집단 ※ 관련글 2023.05.18 - [데이터분석과 AI/빅데이터 분석기사] - [빅데이터분석기사 실기][작업형3] t검정(대응표본, 독립표본, 단일표본) [빅데이터분석기사 실기][작업형3] t검정(대응표본, 독립표본, 단일표본) 간단 요약 - 대응표본 가설검정은 시점 차이 등에 따라 쌍을 이루는 관찰이 있을 때 사용한다. - 독립표본 가설검정은 두 독.. 2023. 6. 27.
[빅데이터분석기사 실기][작업형3] 비모수 검정 Mann-Whitney-U 검정, Wilcoxon 순위합 검정 (독립표본) 두 개의 독립적인 표본에 대해 정규성 가정이 충족되지 않으면 비모수 검정을 사용할 수 있습니다. 독립표본에 대한 비모수 검정 방법은 Mann-Whitney U 검정, Wilcoxon Rank Sum 검정이 있습니다. 이 두 가지 비모수 검정 방법은 두 독립 그룹의 중앙값을 비교하는 데 사용됩니다. 다음은 이에 대한 예제입니다. ※ 만약 데이터에 결측치가 존재하면 dropna()로 제거하고 진행합니다. import numpy as np # 정규성을 충족하지 않는 데이터 생성을 위해 지수분포를 사용 samp1 = np.random.exponential(scale=1, size=100) samp2 = np.random.exponential(scale=1, size=100) print(stats.shapiro(.. 2023. 6. 26.
[빅데이터분석기사 실기][작업형3] 등분산 검정(levene, bartlett, fligner) 등분산 검정 또는 분산 동질성 검정이라고도 하는 등분산 검정은 둘 이상의 그룹 또는 샘플의 분산이 동일한지 여부를 확인하는 데 사용되는 통계 검정입니다. 이는 독립 표본 t 검정 및 분산 분석(ANOVA)과 같은 여러 통계 검정에서 중요한 가정입니다. 분산이 크게 다른 경우 통계 테스트의 유효성과 신뢰성에 영향을 미쳐 부정확한 결론을 내릴 수 있습니다. 등분산 검정은 아래와 같이 3가지가 있고, 각각 특징이 있습니다. Levene's Test: 그룹 평균과의 절대 편차를 비교하고 정규성 이탈에 덜 민감합니다. Bartlett's Test: 그룹 분산을 기반으로 분산을 비교하고 데이터의 정규성을 가정합니다. Fligner's Test: 절대 편차의 중앙값을 비교하는 비모수 검정이며 정규성 편차에 대해 견고.. 2023. 6. 25.
[빅데이터분석기사 실기][작업형3] 비모수 검정 wilcoxon 부호순위 테스트 (단일표본, 대응표본) 단일표본 t-검정이나, 대응표본 t-검정은 데이터의 정규성을 가정하고 있습니다. 따라서 데이터의 정규성이 확보되지 않은 경우에는 비모수 검정 방법으로 Wilcoxon 부호 순위 테스트를 이용합니다. 1. 단일 표본 아래에서 참가자 그룹의 반응 시간이 200ms로 설정한 중위값과 다른지 확인하려고 한다고 가정합니다. 우선 Shapiro-Wilk 테스트로 정규성 검정을 합니다. from scipy.stats import shapiro, wilcoxon # Data for the single sample reaction_times = pd.Series([180, 210, 190, 220, 210, 211,195, 120, 130]) hypothesized_median = 200 statistic, p_valu.. 2023. 6. 24.
[빅데이터분석기사 실기] 시험 시 주의사항, 꿀팁 방출 한 달 정도 빅데이터분석기사 실기를 준비한 것 같습니다. 실기 준비를 해보니, 문제가 어렵지는 않은데, 실수를 하는 부분이 있습니다. 시험 중에 실수할 수 있는 부분을 정리하고, 시험 전에 한번 숙지하면 좋을 것 같습니다. 메모장 사용 print() 문을 사용해서 출력한 데이터프레임, info(), describe() 등 시험 환경의 작업창에서 보기 힘들고, 모델의 성능 지표도 관리가 필요하므로 메모장을 활용하자. (시험 중 사용 가능) dir과 help 잘 사용하기 라이브러리나 함수명이 기억이 안나면 dir과 help를 사용해서 조회해보자 문제의 요구사항을 놓치지 말자 소수점 자리수, 제외해야 하는 값 등을 고려하지 않고 틀리는 경우가 많으니 조심하자. 검산을 하자 오류가 나면 차라리 다행이다. 작업형.. 2023. 6. 23.
[빅데이터분석기사 실기][작업형3]카이제곱 검정(적합도 검정, 독립성 검정)+피셔의 정확검정 카이 제곱 검정은 두 범주형 변수 사이에 유의미한 연관성이 있는지 확인하는 데 사용되는 통계 검정입니다. 분할표에서 관찰된 빈도를 변수가 독립적인 경우 예상되는 빈도와 비교합니다. 검정은 독립 가설을 평가할 수 있는 카이제곱 통계량과 p-값을 계산합니다. 다음은 Python에서 카이제곱 검정을 설명하는 예입니다. 1. 카이제곱 적합도 검정(일원 카이제곱검정) 카이제곱 적합도 검정은 관찰된 데이터가 특정 이론적 분포에 맞는지 확인하는 데 사용됩니다. 관찰된 빈도를 가설 분포를 기반으로 하는 예상 빈도와 비교합니다. 관측 빈도가 예상 빈도에서 크게 벗어나면 데이터가 가정된 분포를 따르지 않는다는 것을 나타냅니다. 아래는 알려진 혈액형 분포와 실제 관측치 간의 적합도를 검정하는 예제입니다. H0(귀무가설): .. 2023. 6. 22.
728x90