본문 바로가기
728x90

실기28

[빅데이터분석기사 실기][작업형1] 분위수 구하고 값을 대체하기 (np.quantile(), np.clip()) 분위수(Quantiles)는 데이터를 일정한 비율로 나누는 기준점을 의미합니다. 주어진 데이터의 분포를 파악하고, 데이터의 상대적 위치를 알아보기 위해 사용됩니다. 일반적으로 백분위수(Percentiles)를 많이 사용합니다. 백분위수는 데이터를 100개의 동등한 부분으로 나눈 것으로, 데이터의 분포를 1부터 100까지의 백분위로 표현할 수 있습니다. 그리고 이런 분위수 기준으로 상, 하위값을 분위수로 대체하는 방식으로 이상치를 제거하기도 합니다. 아래는 이에 대한 간단한 예제입니다. import numpy as np # 예제 데이터 배열 생성 data = np.array([10, 20, 30, 40, 45, 50, 55, 60, 70, 80, 90, 100]) # 상위 75% 값을 구하는 예제 uppe.. 2023. 5. 26.
[빅데이터분석기사 실기][작업형1] 결측치 제거 및 그룹화 앞서 결측치를 대체하는 방법을 알아보았습니다. 이번에는 dropna()를 사용하여 결측치가 존재하는 행을 삭제하는 방법입니다. 그리고, groupby로 데이터를 그룹화하고, index가 2개 이상인 경우에 값을 선택하는 방법까지 알아보겠습니다. import pandas as pd #샘플 데이터 만들기 df = pd.DataFrame({'value': [1, 2, None, 4, 5, 6], 'ind1': ['a', 'a', 'b', 'b', 'c', 'c'], 'ind2': [1, 2, 1, 2, 1, 2]}) #결측치 확인 df.isna().sum() #결측치 제거 df[~df['value'].isna()] #groupby로 멀티인덱스 만들기 df_grp=df.groupby(['ind1','ind2'].. 2023. 5. 24.
[빅데이터분석기사 실기][작업형1] 왜도와 첨도, np.log1p() 왜도 및 첨도는 데이터 세트의 형태 및 분포에 대한 정보를 제공하는 통계값입니다. 왜도(Skewness): 왜도는 분포의 비대칭성을 측정합니다. 양의 왜도는 분포의 꼬리가 오른쪽으로 치우쳐 있음을 의미하고 음의 왜도는 꼬리가 왼쪽으로 치우쳐 있음을 의미합니다. 왜도 값 0은 완벽하게 대칭적인 분포를 나타냅니다. 첨도(Kurtosis): 첨도는 분포의 정점 또는 평탄도를 측정합니다. 정규 분포와 비교하여 데이터에 두꺼운 꼬리(leptokurtic) 또는 가벼운 꼬리(platykurtic)가 있는지 여부를 알려줍니다. 첨도 값 3은 정규 분포를 나타냅니다. 양의 첨도는 꼬리가 두꺼울수록 더 뾰족한 분포를 나타내고, 음의 첨도는 꼬리가 더 가늘고 평평한 분포를 나타냅니다. 데이터 세트의 로그를 취할 때 왜도 .. 2023. 5. 24.
[빅데이터분석기사 실기][작업형1] map()을 이용하여 결측치 처리하기 Python에는 데이터의 결측치(누락된 값)를 처리하는 여러 가지 방법이 있습니다. 일반적으로 사용되는 몇 가지 방법은 다음과 같습니다. 결측치 삭제: dropna() 함수를 사용하여 결측치가 포함된 행 또는 열을 제거할 수 있습니다. axis 매개 변수를 지정하면 결측치가 있거나 특정 조건을 충족하는 행(axis=0) 또는 열(axis=1)을 삭제할 수 있습니다. 결측치 채우기: fillna() 함수를 사용하여 결측치를 지정된 값으로 채울 수 있습니다. 결측치를 상수 값으로 채우거나 전방 채우기(ffill), 후방 채우기(bfill) 또는 보간과 같은 다양한 방법을 사용하여 인접 값을 기반으로 누락된 값을 채우도록 선택할 수 있습니다. 결측값 대치: 대치에는 다른 관찰된 값을 기반으로 결측값을 추정하는.. 2023. 5. 24.
[빅데이터분석기사 실기][작업형1] 반올림, 올림, 내림, 버림의 차이 Python에서 round, floor, ceil 및 trunc 함수의 차이점을 짚고 넘어가겠습니다. numpy와 math 라이브러리를 사용할 수 있는데, 사용방법은 비슷합니다. 여기서는 양수와 음수를 모두 비교하기 위해 numpy를 사용했습니다. round: round() 함수는 숫자를 지정된 소수 자릿수로 반올림하는 데 사용됩니다. 기본적으로 가장 가까운 짝수로 반올림됩니다. 예를 들어 round(3.7)은 4로 반올림되고 round(3.2)는 3으로 반올림됩니다. ceil: 역시 수학 모듈에 있는 ceil() 함수는 주어진 숫자보다 크거나 같은 가장 작은 정수를 반환합니다. 항상 반올림합니다. 예를 들어 math.ceil(3.7)은 4를 생성하고 math.ceil(3.2)도 4를 생성합니다. flo.. 2023. 5. 23.
[빅데이터분석기사 실기][작업형1] IQR을 이용한 이상값 탐지 사분위수 범위(IQR)는 데이터 세트에서 이상값을 식별하는 데 사용되는 통계값입니다. 아래와 같은 순서로 이상값을 판별합니다. 1. IQR 계산: IQR은 제3사분위수(Q3)에서 제1사분위수(Q1)를 빼서 구합니다. 수학적으로 IQR = Q3 - Q1입니다. 2. 이상값 경계 정의: IQR에 상수(일반적으로 1.5 또는 3)를 곱하여 이상값을 식별하기 위한 임계값을 결정합니다. 하한은 Q1 - (IQR * 상수)로 정의되고 상한은 Q3 + (IQR * 상수)로 정의됩니다. 3. 잠재적 이상값 식별: 하한선 아래 또는 상한선 위에 있는 모든 데이터 포인트는 잠재적인 이상값으로 간주됩니다. 4. 이상값 처리 또는 조사: 데이터의 특성에 따라 이상값을 제거하거나 누락된 값으로 처리하거나 데이터 품질 문제 또는.. 2023. 5. 23.
[빅데이터분석기사 실기][작업형3] 일원배치법(One-Way ANOVA) 일원배치법 혹은 일원분산분석(One-Way ANOVA, One-Way Analysis of Variance)은 하나의 독립 변수(그룹 또는 처리)와 연속형 종속 변수(측정값) 간의 차이를 평가하는 통계적인 방법입니다. 이 방법으로 그룹 간의 평균 차이가 우연에 의한 것인지 통계적으로 검증할 수 있습니다. 일원배치법은 다음과 같은 과정으로 진행합니다. 가설 설정 귀무 가설(H0): 그룹 간의 평균은 모두 동일하다. 대립 가설(H1): 적어도 하나의 그룹의 평균은 다른 그룹과 유의하게 다르다. 기본 가정 검증 일원배치법에 따른 검증이 유효하려면 충족되어야 하는 몇 가지 가정이 있습니다. 이러한 가정에는 다음이 포함됩니다. 독립성: 각 그룹 내의 관측값은 서로 독립적인 것으로 가정합니다. 이는 한 그룹의 측정.. 2023. 5. 20.
[빅데이터분석기사 실기][작업형3] 상관계수 상관 계수는 두 변수 간의 선형 관계의 강도와 방향을 측정합니다. 상관 계수의 범위는 -1에서 1까지이며 여기서 -1은 완벽한 음의 상관관계를 나타내고 1은 완벽한 양의 상관관계를 나타내며 0은 상관관계가 없음을 나타냅니다. 상관 계수가 양수(1에 가까울수록)이면 한 변수가 증가하면 다른 변수도 증가하는 경향이 있음을 나타냅니다. 예를 들어, 공부한 시간과 시험 점수 사이의 관계를 조사하는 경우 양의 상관 계수는 공부를 더 많이 하는 학생이 더 높은 점수를 얻는 경향이 있음을 나타냅니다. 반면에 상관 계수가 음수(-1에 가까울수록)이면 한 변수가 증가하면 다른 변수는 감소하는 경향이 있음을 나타냅니다. 예를 들어 온도와 아이스크림 판매 간의 관계를 조사하는 경우 음의 상관 계수는 온도가 상승함에 따라 아.. 2023. 5. 20.
[빅데이터분석기사 실기][작업형3] 정규성 검정(Shapiro-Wilk Test) Shapiro-Wilk 검정은 데이터 샘플의 정규성을 평가하는 데 사용되는 통계 테스트입니다. Shapiro-Wilk 검정은 정규성을 가정하여 표본 데이터와 기댓값 간의 상관관계를 기반으로 검정 통계량을 계산합니다. 정규성에서 관측된 편차를 우연히 얻을 확률을 나타내는 p-값을 생성합니다. p-값이 선택한 유의 수준(예: 0.05) 보다 작으면 데이터가 정규 분포에서 크게 벗어났다는 것을 나타냅니다. 이때 귀무가설(H0)은 "데이터가 정규분포를 따른다." 대립가설(H1)은 "데이터가 정규분포를 따르지 않는다."입니다. 데이터 분석에서 데이터의 정규성이 기본적인 가정이므로, 이것을 깨는 것(증명하는 것)이 대립가설로 정해집니다. 앞서 배운 t검정과 반대인 느낌적인 느낌을 가지고 있어서, 혼돈이 올 수 있습.. 2023. 5. 18.
728x90