본문 바로가기
데이터분석과 AI/파이썬을 엑셀처럼 쓰기

4. EDA(Explorary Data Analytics) 탐색적 자료 분석이란?

by 우공80 2022. 9. 16.
728x90

위키백과에서 찾은 EDA의 정의는 아래와 같습니다.

 

탐색적 자료 분석(영어: Exploratory data analysis)은 존 튜키라는 미국의 저명한 통계학자가 창안한 자료 분석 방법론이다. 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러 가지 탐색적 자료 분석 방법을 개발하였다. 대표적인 예로 박스플롯을 들 수 있다. 탐색적 자료 분석을 통하여 자료에 대한 충분한 이해를 한 후에 모형 적합 등의 좀 더 정교한 모형을 개발할 수 있다.

 

뭔 말인가... 싶은데, 중요한 부분은 "자료에 대한 충분한 이해" 입니다.

초보 데이터분석가가 제일 많이 하는 실수가 이 EDA를 소홀히 하는 것입니다.

EDA를 대충 하고, 일단 코드 짜서 결과만 내려고 하는 경우가 종종 보이는데요. 

데이터에 대한 이해 없이 분석을 진행하면 나중에 원하는 수준으로 모델링이 되지 않거나,

아주 엉뚱한 결과를 내놓는 경우도 발생할 수 있습니다.

 

그래서 우리는 데이터를 받으면 일단 데이를 찬찬이 살펴보고 씹고 뜯고 맛보고 즐기는 과정을 충실히 거쳐야 합니다.

 

그러려면 Excel 마냥 Python을 다룰 수 있어야 겠죠?

다음 포스팅부터 Excel의 각 기능에 대응하는 Python 함수를 배워보겠습니다.

728x90

댓글