728x90
분위수(Quantiles)는 데이터를 일정한 비율로 나누는 기준점을 의미합니다. 주어진 데이터의 분포를 파악하고, 데이터의 상대적 위치를 알아보기 위해 사용됩니다. 일반적으로 백분위수(Percentiles)를 많이 사용합니다. 백분위수는 데이터를 100개의 동등한 부분으로 나눈 것으로, 데이터의 분포를 1부터 100까지의 백분위로 표현할 수 있습니다.
그리고 이런 분위수 기준으로 상, 하위값을 분위수로 대체하는 방식으로 이상치를 제거하기도 합니다.
아래는 이에 대한 간단한 예제입니다.
import numpy as np
# 예제 데이터 배열 생성
data = np.array([10, 20, 30, 40, 45, 50, 55, 60, 70, 80, 90, 100])
# 상위 75% 값을 구하는 예제
upper_quantile = np.quantile(data, 0.9)
print("Upper Quantile (90%):", upper_quantile)
# 하위 25% 값을 구하는 예제
lower_quantile = np.quantile(data, 0.1)
print("Lower Quantile (10%):", lower_quantile)
# 상위값보다 큰 값을 상위값으로, 하위값보다 작은 값을 하위값으로 변경
data_clipped = np.clip(data, lower_quantile, upper_quantile)
print("Clipped Data:")
print(data_clipped)
※ 위 내용은 "빅데이터 분석기사 실기 준비를 위한 캐글 놀이터"를 따라가며 공부한 내용입니다.
https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr
728x90
'데이터분석과 AI > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터분석기사 실기][작업형1] 누적합 계산 및 결측치 채우기(cumsum, bfill) (0) | 2023.05.27 |
---|---|
[빅데이터분석기사 실기][작업형1] 값을 대체하기 (replace) (0) | 2023.05.26 |
[빅데이터분석기사 실기][작업형1] 결측치 제거 및 그룹화 (0) | 2023.05.24 |
[빅데이터분석기사 실기][작업형1] 왜도와 첨도, np.log1p() (0) | 2023.05.24 |
[빅데이터분석기사 실기][작업형1] map()을 이용하여 결측치 처리하기 (0) | 2023.05.24 |
댓글