본문 바로가기
데이터분석과 AI/빅데이터 분석기사

[빅데이터분석기사 실기][작업형3] 상관계수

by 우공80 2023. 5. 20.
728x90

상관계수

 

상관 계수는 두 변수 간의 선형 관계의 강도와 방향을 측정합니다. 상관 계수의 범위는 -1에서 1까지이며 여기서 -1은 완벽한 음의 상관관계를 나타내고 1은 완벽한 양의 상관관계를 나타내며 0은 상관관계가 없음을 나타냅니다.

상관 계수가 양수(1에 가까울수록)이면 한 변수가 증가하면 다른 변수도 증가하는 경향이 있음을 나타냅니다. 예를 들어, 공부한 시간과 시험 점수 사이의 관계를 조사하는 경우 양의 상관 계수는 공부를 더 많이 하는 학생이 더 높은 점수를 얻는 경향이 있음을 나타냅니다.

반면에 상관 계수가 음수(-1에 가까울수록)이면 한 변수가 증가하면 다른 변수는 감소하는 경향이 있음을 나타냅니다. 예를 들어 온도와 아이스크림 판매 간의 관계를 조사하는 경우 음의 상관 계수는 온도가 상승함에 따라 아이스크림 판매가 감소하는 경향이 있음을 나타냅니다.

0에 가까운 상관 계수는 변수 사이에 선형 관계가 거의 없거나 전혀 없음을 나타냅니다. 이는 한 변수의 변화가 다른 변수의 변화를 일관되게 예측하지 못한다는 것을 의미합니다.

상관 계수는 변수 간의 관계를 이해하는 데 유용한 도구이지만 선형 관계의 강도와 방향만 측정한다는 점에 유의해야 합니다. 변수 간의 비선형 관계나 인과 관계는 포착하지 않습니다. 두 변수 사이의 상관관계가 높다고 해서 반드시 한 변수가 다른 변수를 변경시킨다는 의미는 아니고, 변수 사이에 관계가 있음을 나타낼 뿐입니다.

아래는 간단한 python 예제입니다.

 

※ 문제: iris 데이터에서 sepal langth와 sepal width의 상관관계를 반올림하여 소수점 둘째자리까지 구하세요

import pandas as pd
from sklearn.datasets import load_iris

# iris 데이터셋 로드
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)

# 두 개의 변수의 상관관계를 구하는 경우
correlation = df['sepal length (cm)'].corr(df['sepal width (cm)'])

# 전체 데이터프레임의 상관계수를 구한 후, 필요한 변수를 선택하는 것도 가능합니다.
# correlation = df.corr().loc['sepal length (cm)', 'sepal width (cm)']

print(round(correlation,2))

 

※ 위 내용은 "빅데이터 분석기사 실기 준비를 위한 캐글 놀이터" 를 따라가며 공부한 내용입니다.

https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr

 

Big Data Certification KR

빅데이터 분석기사 실기 (Python, R tutorial code)

www.kaggle.com

 

728x90

댓글