본문 바로가기
728x90

데이터분석5

5. 데이터의 기본 개요 확인 방법 (info, describe) 데이터프레임은 엑셀에 없는 몇가지 편의 기능을 제공하는데요. 데이터에 대한 요약이나, 데이터의 기술통계(평균,합계 등 기본 통계라고 생각하시면 됩니다.)를 확인할 수 있는 함수가 있습니다. pandas.DataFrame.info info() 함수는 데이터프레임의 크기, 컬럼의 타입등을 보여줍니다. 전체 행/열 수를 확인하고, 각 컬럼과 비교하면 결측치(값이 없는 데이터)를 확인할 수 있고, 데이터 타입에 따라 어떻게 데이터를 수정할지 검토할 수 있습니다. boston_price.info() boston_price 데이터는 총 506개의 행과 14개의 컬럼을 가지고 있고, 결측치는 존재하지 않는 다는 것을 알수 있습니다. 그리고 모든 열이 수치형 데이터인 것을 알수 있습니다. pandas.DataFrame.. 2022. 9. 16.
4. EDA(Explorary Data Analytics) 탐색적 자료 분석이란? 위키백과에서 찾은 EDA의 정의는 아래와 같습니다. 탐색적 자료 분석(영어: Exploratory data analysis)은 존 튜키라는 미국의 저명한 통계학자가 창안한 자료 분석 방법론이다. 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러 가지 탐색적 자료 분석 방법을 개발하였다. 대표적인 예로 박스플롯을 들 수 있다. 탐색적 자료 분석을 통하여 자료에 대한 충분한 이해를 한 후에 모형 적합 등의 좀 더 정교한 모형을 개발할 수 있다. 뭔 말인가... 싶은데, 중요한 부분은 "자료에 대한 충분한 이해" 입니다. 초보 데이터분석가가 제일 많이 하는 실수가 이 EDA.. 2022. 9. 16.
3. 데이터 파일(xlsx, xls, csv) 읽고 쓰기 데이터 분석을 위해 우선 파일을 불러오는 것부터 시작하겠습니다. 자주 사용하는 xlsx, xls, csv 파일을 읽어 오겠습니다. .csv csv 파일은 pandas에서 기본으로 제공하는 read_csv 함수를 사용하면 되고, 괄호안에 읽고자하는 파일 경로를 입력합니다. 절대, 상대 경로가 모두 가능합니다. 아래 코드는 파일을 읽어서 data 데이터 프레임에 저장하고 있습니다. import pandas as pd boston_data=pd.read_csv('BostonHousing.csv') #파일 이름 # boston_data=pd.read_csv('data/BostonHousing.csv') # 파일 경로 (상대) # boston_data=pd.read_csv('c:/data/BostonHousing.. 2022. 9. 14.
2. Set_option 다루기 이제 본격적으로 Dataframe을 다루어야 하는데, 한 가지 맘에 걸립니다. 아래 총 rows가 506인데, 중간이 뚝 끊어지고,"..."으로 표시되고 있네요. 아래 데이터는 행이 끊어졌지만, 열수가 많아지면 열도 끊어집니다. DataFrame의 가려진 행과 열을 보이게 하려면 set_option 이라는 함수를 사용합니다. pd.set_option('display.max_rows',600) #행 수를 늘릴 때 pd.set_option('display.max_columns',600) #열 수를 늘릴 때 이 코드에서 두 번째 인자로 숫자를 넣으면 해당 숫자만큼의 행/열이 표시됩니다. 그리고, None을 넣으면 무제한으로 표시되고, 0을 넣으면 Default으로 돌아갑니다. 이렇게 0~505행까지 출력이 됩.. 2022. 9. 14.
0. 파이썬을 엑셀처럼 쓰기 어쩌다 강사.. 2020년부터 회사에서 데이터 분석 관련 사내강사로 발탁되어서 부족한 실력이나마 강의를 하고 있습니다. 저는 2018년 즈음에 처음 R 교육을 받았습니다. 그런데, 업무가 AI나 데이터 분석 쪽이 아니다 보니, 교육 후 쓸 일이 없어서 흐지부지 잊어버리고, 다시 교육받으면 또 새롭고.. 계속 이런 패턴이 반복되었습니다. 제가 이런 구간을 넘어서게 된 이유가 사실 사내강사로 발탁되면서부터인데요. 2020년에 데이터 분석 관련 사내강사 발탁한다고, 부서별로 1명씩 차출하라고 지시가 내려왔습니다. 근데, 당시 제가 R프로그래밍 책을 공부도 안 하면서 맨날 책상에 펴놓았는데, 그걸 보신 상무님께서 제가 뭐라도 되는 줄 알고 저를 올려버리신 거죠. 못한다고 말씀드렸는데도 괜찮다고 해보라고 하셔서 .. 2020. 10. 23.
728x90