본문 바로가기
데이터분석과 AI/빅데이터 분석기사

[빅데이터분석기사 실기][작업형1] 결측치 제거 및 그룹화

by 우공80 2023. 5. 24.
728x90

결측치 제거 및 그룹화

앞서 결측치를 대체하는 방법을 알아보았습니다. 이번에는 dropna()를 사용하여 결측치가 존재하는 행을 삭제하는 방법입니다. 그리고, groupby로 데이터를 그룹화하고, index가 2개 이상인 경우에 값을 선택하는 방법까지 알아보겠습니다.

import pandas as pd

#샘플 데이터 만들기
df = pd.DataFrame({'value': [1, 2, None, 4, 5, 6],
                    'ind1': ['a', 'a', 'b', 'b', 'c', 'c'],
                    'ind2': [1, 2, 1, 2, 1, 2]})
#결측치 확인
df.isna().sum()

#결측치 제거
df[~df['value'].isna()]

#groupby로 멀티인덱스 만들기
df_grp=df.groupby(['ind1','ind2']).sum('value')

#멀티인덱스의 형태 참고
print('index:',df_grp.index)

#ind1이 a이고, ind2가 2인 값을 찾아 출력하기
print(df_grp.loc[('a',2),'value'])


Output: 아래처럼 멀티인덱스는 튜플의 형태인 것을 알 수 있습니다.

index: MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           names=['ind1', 'ind2'])
2.0

※ 위 내용은 "빅데이터 분석기사 실기 준비를 위한 캐글 놀이터"를 따라가며 공부한 내용입니다.

https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr

 

Big Data Certification KR

빅데이터 분석기사 실기 (Python, R tutorial code)

www.kaggle.com

 

728x90

댓글