pd.describe() 사용법
파이썬에서 데이터를 로딩하고 가장 많이 사용하는 함수 중의 하나가 describe 함수입니다. 사용법은 간단한데, descirbe 함수가 범주형에 대해서도 통계정보를 생성해 준다는 것을 모르는 분들이 종종 있어서 정리해 놓습니다. 1. 예시 데이터 생성 import pandas as pd data = {'Age': [25, 30, 22, 40, 28], 'Height': [170, 160, 175, 162, 180], 'Weight': [65, 70, 60, 75, 85], 'Gender': ['Male', 'Female', 'Male', 'Female', 'Male']} df = pd.DataFrame(data) 2. 수치형 데이터에 대한 통계 생성 print("Numeric Data Summary:"..
2023. 8. 16.
데이터분석 초보자가 자주하는 실수- 정확도, 정밀도, 재현율, F1-score 까지 모든 성능지표가 1인 경우
데이터 분석과 머신러닝을 처음 했을 접할 무렵에, 희한하게 모든 성능지표가 1이거나 1에 매우 가까운 경우를 종종 발견합니다. 분명히 무언가 잘못되었을 텐데, 처음에는 성능이 높다고 생각하기 쉽죠. 오류 메시지가 나오지 않지만, 코딩 오류이며, 일종의 과적합입니다. 예시로 두 가지를 들어보겠습니다. 1. 검증 데이터가 학습 데이터의 부분집합이 되면 발생합니다. 예를 들어 train_test_split 안 쓰고 행수 기준 20% 잘라서 쓰면서, 80%, 20%로 안 쓰고, 100%, 20% 쓰는 경우 발생합니다. import pandas as pd #학습데이터에서 검증데이터를 분리하고, 삭제하지 않음 X_train=pd.DataFrame({ 'ID':[1,2,3,4,5,6,7,8,9,10], 'age':[..
2023. 6. 30.
Inplace=True 옵션을 썼는데, 데이터 변경이 안되는 경우
drop, fillna, replace 등 python pandas 함수를 쓰면서 Inplace=True 옵션을 자주 사용하였는데, 이 옵션이 동작하지 않는 경우가 있어서 공유합니다. 우선 아래 예제를 보겠습니다. 1. Inplace=True 옵션이 동작하지 않는 경우 이 예제는 Age와 Income 열의 값이 0인 경우 각 컬럼의 평균값으로 대체하는 예제입니다. import pandas as pd # 샘플 데이터프레임 생성 data = {'Name': ['John', 'Alice', 'Bob', 'Emily'], 'Age': [25, 30, 35, 0], 'Income':[100,200,300,0], 'City': ['New York', 'Paris', 'London', 'Sydney'], 'Gende..
2023. 6. 11.