데이터분석 초보자가 자주하는 실수- 정확도, 정밀도, 재현율, F1-score 까지 모든 성능지표가 1인 경우
데이터 분석과 머신러닝을 처음 했을 접할 무렵에, 희한하게 모든 성능지표가 1이거나 1에 매우 가까운 경우를 종종 발견합니다. 분명히 무언가 잘못되었을 텐데, 처음에는 성능이 높다고 생각하기 쉽죠. 오류 메시지가 나오지 않지만, 코딩 오류이며, 일종의 과적합입니다. 예시로 두 가지를 들어보겠습니다. 1. 검증 데이터가 학습 데이터의 부분집합이 되면 발생합니다. 예를 들어 train_test_split 안 쓰고 행수 기준 20% 잘라서 쓰면서, 80%, 20%로 안 쓰고, 100%, 20% 쓰는 경우 발생합니다. import pandas as pd #학습데이터에서 검증데이터를 분리하고, 삭제하지 않음 X_train=pd.DataFrame({ 'ID':[1,2,3,4,5,6,7,8,9,10], 'age':[..
2023. 6. 30.