본문 바로가기
데이터분석과 AI/파이썬을 엑셀처럼 쓰기

1. Pandas 와 Dataframe 다루기

by 우공80 2020. 10. 24.
728x90

Pandas와 Dataframe 시작하기

1. Pandas와 Dataframe

Python은 R이나 Excel처럼 분석 전용의 언어/ 프로그램이 아니기 때문에 관련 라이브러리를 호출해서 사용해야 합니다

그것이 Pandas 라이브러리이고, Dataframe이라는 구조입니다.

 

여기서는 Dataframe을 다루는 법을 공부하겠습니다.

이 포스팅의 컨셉자체가 Excel처럼 사용하는 것이니,

Excel처럼 사용하는 데 불필요한 설명은 모두 건너뛰고 사용법에만 집중하겠습니다.

 

다행히 우리 회사는 python-Jupyterlab을 통해 분석을 할 수 있도록 플랫폼이 제공되니,

설치 과정은 건너뛰고 바로 시작합니다.

(환경 구성하는 방법은 다양합니다. 아직 python 환경이 없으시다면 아래 링크를 참고하시기 바랍니다.)

 

 

따라만 하면 되는 Jupyter Lab 설치

Jupyter Lab 설치 방법을 알려달라고 해서 올리는 따라만 하면 깔리는 Jupyter Lab 설치 방법입니다. 아래 참고 부분을 꼭 읽어주세요. 참고. A는 pip 환경에서 파이썬을 구성하고 Jupyter를 설치하는 과정

itrepo.tistory.com

 

 

Google Colaboratory 입문자들을 위한 설명!

추후 BERT로 classification하는 문제를 풀어보고 싶은 분들은 아래 링크에 매뉴얼을 참고하여 실습해 보시기 바랍니다. https://jisoo-coding.tistory.com/34 BERT를 Google Colab에서 돌려보기(TPU 사용) 글에..

jisoo-coding.tistory.com

2. Pandas library를 불러오고, Dataframe 확인하기

Pandas는 아래와 같은 코드로 불러옵니다. 

import pandas as pd

 

이제 Dataframe이 어떻게 생겼는지 한번 보겠습니다.

아래 코드는 sklearn이라는 라이브러리에서 제공하는 Boston 집값에 대한 샘플 데이터를 불러오는 코드입니다.

이 포스팅 시리즈가 끝나면 무슨 의미인지는 자연스럽게 아실 것이고, 지금은 실행시켜서 데이터 프레임이 어떻게 생겼는지만 보겠습니다.

from sklearn.datasets import load_boston
X = pd.DataFrame(load_boston().data, columns=load_boston().feature_names)
Y = pd.Series(load_boston().target,name='MEDV')
boston_price = pd.concat([X,Y],axis=1)
boston_price

별거 없죠? 엑셀처럼 행과 열이 있고 값들이 쭉~ 들어가 있습니다.

이제 다음 포스팅 부터 이 Dataframe을 다뤄보겠습니다.

728x90

댓글