728x90
앞서 결측치를 대체하는 방법을 알아보았습니다. 이번에는 dropna()를 사용하여 결측치가 존재하는 행을 삭제하는 방법입니다. 그리고, groupby로 데이터를 그룹화하고, index가 2개 이상인 경우에 값을 선택하는 방법까지 알아보겠습니다.
import pandas as pd
#샘플 데이터 만들기
df = pd.DataFrame({'value': [1, 2, None, 4, 5, 6],
'ind1': ['a', 'a', 'b', 'b', 'c', 'c'],
'ind2': [1, 2, 1, 2, 1, 2]})
#결측치 확인
df.isna().sum()
#결측치 제거
df[~df['value'].isna()]
#groupby로 멀티인덱스 만들기
df_grp=df.groupby(['ind1','ind2']).sum('value')
#멀티인덱스의 형태 참고
print('index:',df_grp.index)
#ind1이 a이고, ind2가 2인 값을 찾아 출력하기
print(df_grp.loc[('a',2),'value'])
Output: 아래처럼 멀티인덱스는 튜플의 형태인 것을 알 수 있습니다.
index: MultiIndex([('a', 1),
('a', 2),
('b', 1),
('b', 2),
('c', 1),
('c', 2)],
names=['ind1', 'ind2'])
2.0
※ 위 내용은 "빅데이터 분석기사 실기 준비를 위한 캐글 놀이터"를 따라가며 공부한 내용입니다.
https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr
728x90
'데이터분석과 AI > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터분석기사 실기][작업형1] 값을 대체하기 (replace) (0) | 2023.05.26 |
---|---|
[빅데이터분석기사 실기][작업형1] 분위수 구하고 값을 대체하기 (np.quantile(), np.clip()) (0) | 2023.05.26 |
[빅데이터분석기사 실기][작업형1] 왜도와 첨도, np.log1p() (0) | 2023.05.24 |
[빅데이터분석기사 실기][작업형1] map()을 이용하여 결측치 처리하기 (0) | 2023.05.24 |
[빅데이터분석기사 실기][작업형1] 반올림, 올림, 내림, 버림의 차이 (1) | 2023.05.23 |
댓글