본문 바로가기
728x90

우공이산250

수치형 데이터를 범주형으로 만드는 비닝(Binning)의 세 가지 방법 feat. Xverse 머신러닝 전처리를 하다 보면, 수치형 데이터를 범주형 데이터로 변경하는 경우가 있습니다. 연령을 구간별로 나누거나, 소득 수준을 구간별로 나누거나 하는 것인데요. 이런 작업을 비닝(Binning)이라고 합니다. 종종 이런 작업을 통해 모델의 성능이 개선되곤 합니다. 비닝에는 동일 너비 비닝(Equal-Width Binning), 동일 빈도 비닝(Equal-Frequency Binning), 모노토닉 비닝(Monotonic Binning)이 있습니다. 이 3가지에 대해 아래에서 설명드리겠습니다. 1. 동일 너비 비닝(Equal-Width Binning) 동일 너비 비닝에서는 변수의 범위를 동일한 너비의 고정된 수의 빈으로 나눕니다. 이 방법을 적용하려면 Bin의 개수와 각 Bin의 너비를 결정해야 합니다... 2023. 7. 6.
[빅데이터분석기사 실기][작업형3] 회귀분석 (statsmodel 활용) 제6회 빅데이터분석기사 시험에는 작업형 3 유형이 추가되었습니다. 이전에 공지된 바로는 시험환경에 설치되고, 사용 가능한 패키지 중에 scipy만 있고, statsmodels가 없었습니다. 그래서 statsmodels를 사용하는 문제는 출제되지 않을 것이라고 예상했습니다. 그런데, 실제 시험에서는 해당 패키지가 설치되어 있었고, statsmodels를 활용해야 풀 수 있는 문제가 출제되었습니다. statsmodels를 사용하지 않고 python을 계산기처럼 사용해도 풀 수는 있겠지만, 그건 코딩..이라고 하기는 그렇죠. (시험 유의사항에는 정작 계산기는 사용하면 안 된다고..) 결국 전원 정답처리되는 것으로 결정되었습니다. 이번 시험에서는 출제되지 않았지만, 저도 잘 모르는 부분이기도 하고, 향후 시험에.. 2023. 7. 4.
[빅데이터분석기사 실기][작업형1] 시간 데이터 다루기(datetime, timedelta) 제6회 빅데이터분석기사 실기 시험 첫 번째 문제로 datetime과 timedelta를 다루는 문제가 나왔습니다. 후기를 보면 이 문제에서 고생한 사람들이 많고, 저 또한 많은 시간을 소모했기에 정리해 둡니다. 1. datetime과 timedelta의 차이 'datetime' 클래스는 날짜 및 시간 정보를 모두 포함하여 특정 시점을 나타냅니다. 날짜와 시간을 전체적으로 작업하는 데 사용되며 특정 구성 요소(년, 월, 일, 시, 분 등) 추출과 같은 다양한 작업을 수행할 수 있습니다. timedelta 클래스는 두 datetime 개체 간의 기간 또는 차이를 나타냅니다. 특정 시간을 더하거나 빼는 등 'datetime' 객체에 대한 산술 연산을 수행하는 데 사용됩니다. datetime객체 - dateti.. 2023. 7. 3.
cross_val_score 할 때 scoring에 입력 가능한 파라미터 머신러닝 모델을 검증할 때, KFold, StratifiedKFold를 쓰지 않고, cross_val_score를 사용하여 편리하게 교차검증이 가능합니다. 그런데, 'cross_val_score' 함수는 평가지표로 사용할 scoring을 설정하게 되어있습니다. scoring str or callable, default=None A str (see model evaluation documentation) or a scorer callable object / function with signature scorer(estimator, X, y) which should return only a single value. Similar to cross_validate but only a single metric i.. 2023. 7. 2.
[용어] 스토리지? 디스크? 무슨 뜻인지 정확하게 구별하고 쓰자!!! 0. 스토리지? 디스크? 차이가 뭐지? 업무 하다가 보면, 스토리지 또는 디스크라는 용어를 종종 섞어서 사용하고 있는데요. 어렴풋하게는 알고 있지만, 어떤 때 어떤 용어를 사용할지 헷갈릴 때가 있어서 간단하게 정리해 보려고 합니다. 일반적으로 디스크는 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD)와 같은 물리적 저장 매체를 나타냅니다. 이러한 장치는 비휘발성 저장소를 제공하며 컴퓨터 시스템에 데이터를 저장하는 데 사용됩니다. 반면 스토리지는 디스크를 비롯한 다양한 기술을 포괄하는 더 넓은 용어입니다. 스토리지는 컴퓨터 환경에서 데이터를 저장하고 관리하는 데 사용되는 전체 인프라 및 시스템을 의미합니다. 여기에는 디스크와 같은 물리적 스토리지 장치와 스토리지 컨트롤러, 네트워크 연결.. 2023. 7. 1.
데이터분석 초보자가 자주하는 실수- 정확도, 정밀도, 재현율, F1-score 까지 모든 성능지표가 1인 경우 데이터 분석과 머신러닝을 처음 했을 접할 무렵에, 희한하게 모든 성능지표가 1이거나 1에 매우 가까운 경우를 종종 발견합니다. 분명히 무언가 잘못되었을 텐데, 처음에는 성능이 높다고 생각하기 쉽죠. 오류 메시지가 나오지 않지만, 코딩 오류이며, 일종의 과적합입니다. 예시로 두 가지를 들어보겠습니다. 1. 검증 데이터가 학습 데이터의 부분집합이 되면 발생합니다. 예를 들어 train_test_split 안 쓰고 행수 기준 20% 잘라서 쓰면서, 80%, 20%로 안 쓰고, 100%, 20% 쓰는 경우 발생합니다. import pandas as pd #학습데이터에서 검증데이터를 분리하고, 삭제하지 않음 X_train=pd.DataFrame({ 'ID':[1,2,3,4,5,6,7,8,9,10], 'age':[.. 2023. 6. 30.
[Python] 그래프에서 한글 깨질 때, 폰트 확인, 한글 폰트 설정, 마이너스 표기 방법 보호되어 있는 글 입니다. 2023. 6. 28.
[빅데이터분석기사 실기][작업형3] 검정 방법의 선택 (수치형 2집단, 3집단 및 범주형) 빅데이터분석기사를 준비하면서 많은 검정 방법 중 무엇을 택해야 하는지 너무 헷갈려서 정리를 좀 해보았습니다. 이 순서도를 보시면서 하나씩 공부를 해나가시면 도움이 되실 것 같습니다. 수치형 2집단 > 범주형 > 수치형 3집단 순으로 공부를 하시면 됩니다. 제가 공부하고 정리한 글은 링크를 남겨두었습니다. (없는 것도 하나씩 채워나갈 예정) 1. 수치형 2집단 ※ 관련글 2023.05.18 - [데이터분석과 AI/빅데이터 분석기사] - [빅데이터분석기사 실기][작업형3] t검정(대응표본, 독립표본, 단일표본) [빅데이터분석기사 실기][작업형3] t검정(대응표본, 독립표본, 단일표본) 간단 요약 - 대응표본 가설검정은 시점 차이 등에 따라 쌍을 이루는 관찰이 있을 때 사용한다. - 독립표본 가설검정은 두 독.. 2023. 6. 27.
[빅데이터분석기사 실기][작업형3] 비모수 검정 Mann-Whitney-U 검정, Wilcoxon 순위합 검정 (독립표본) 두 개의 독립적인 표본에 대해 정규성 가정이 충족되지 않으면 비모수 검정을 사용할 수 있습니다. 독립표본에 대한 비모수 검정 방법은 Mann-Whitney U 검정, Wilcoxon Rank Sum 검정이 있습니다. 이 두 가지 비모수 검정 방법은 두 독립 그룹의 중앙값을 비교하는 데 사용됩니다. 다음은 이에 대한 예제입니다. ※ 만약 데이터에 결측치가 존재하면 dropna()로 제거하고 진행합니다. import numpy as np # 정규성을 충족하지 않는 데이터 생성을 위해 지수분포를 사용 samp1 = np.random.exponential(scale=1, size=100) samp2 = np.random.exponential(scale=1, size=100) print(stats.shapiro(.. 2023. 6. 26.
728x90