본문 바로가기
데이터분석과 AI/빅데이터 분석기사

[빅데이터분석기사 실기][작업형1] 분위수 구하고 값을 대체하기 (np.quantile(), np.clip())

by 우공80 2023. 5. 26.
728x90

분위수 구하고 값을 대체하기

분위수(Quantiles)는 데이터를 일정한 비율로 나누는 기준점을 의미합니다. 주어진 데이터의 분포를 파악하고, 데이터의 상대적 위치를 알아보기 위해 사용됩니다. 일반적으로 백분위수(Percentiles)를 많이 사용합니다. 백분위수는 데이터를 100개의 동등한 부분으로 나눈 것으로, 데이터의 분포를 1부터 100까지의 백분위로 표현할 수 있습니다.

 

그리고 이런 분위수 기준으로 상, 하위값을 분위수로 대체하는 방식으로 이상치를 제거하기도 합니다.

 

아래는 이에 대한 간단한 예제입니다.

import numpy as np

# 예제 데이터 배열 생성
data = np.array([10, 20, 30, 40, 45, 50, 55, 60, 70, 80, 90, 100])

# 상위 75% 값을 구하는 예제
upper_quantile = np.quantile(data, 0.9)
print("Upper Quantile (90%):", upper_quantile)

# 하위 25% 값을 구하는 예제
lower_quantile = np.quantile(data, 0.1)
print("Lower Quantile (10%):", lower_quantile)

# 상위값보다 큰 값을 상위값으로, 하위값보다 작은 값을 하위값으로 변경
data_clipped = np.clip(data, lower_quantile, upper_quantile)
print("Clipped Data:")
print(data_clipped)

※ 위 내용은 "빅데이터 분석기사 실기 준비를 위한 캐글 놀이터"를 따라가며 공부한 내용입니다.

https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr

 

Big Data Certification KR

빅데이터 분석기사 실기 (Python, R tutorial code)

www.kaggle.com

 

728x90

댓글