본문 바로가기
데이터분석과 AI/데이터분석과 AI 일반

회귀분석과 시계열분석의 차이

by 우공80 2023. 8. 2.
728x90

수치를 예측하는 두 가지 분석 방법이 있습니다. 보통 처음 머신러닝을 배우게 되면 회귀를 통해 수치를 예측하는 것을 배웁니다. 그러다 이제 시계열 분석을 알게 되는데요. 

회귀와 시계열 분석은 어떤 차이가 있고, 어떨 때 사용하는 것이 좋은지 정리해 보겠습니다.

 

1. 데이터 유형

  • 회귀
    회귀 분석에서 데이터는 하나 이상의 독립 변수(예측 변수)와 종속 변수(예측하려는 결과)로 구성됩니다. 시간의 흐름이 반영되어 있지 않으며, 이를 횡단면데이터라고 부릅니다.
  • 시계열 분석
    시계열 분석에서는 일정한 간격으로 시간에 따라 데이터를 수집합니다. 데이터는 시간 종속적이며 각 관찰은 이전 관찰의 영향을 받습니다. 이를 시계열 데이터라고 부릅니다.

시계열 데이터와 횡단면 데이터

※ 다수의 시점에 다수의 독립변수를 가지고 있는 경우 시계열 횡단면 데이터라고 합니다.

2. 목표

  • 회귀
    회귀 분석의 주요 목적은 독립 변수와 종속 변수 간의 관계를 찾아내는 것입니다. 독립 변수의 값을 기반으로 종속 변수의 값을 예측하거나 설명하는 것에 목적을 두고 있습니다. 
  • 시계열 분석
    시계열 분석의 주요 목표는 시계열 데이터의 기본 구조를 이해하고 과거 패턴을 기반으로 미래 가치를 예측하는 것입니다. 시간 종속 데이터로 인해 발생하는 특정 문제를 다룹니다.

3. 가정

  • 회귀
    회귀 분석은 독립 변수와 종속 변수 사이에 선형 관계가 있다고 가정합니다. 또한 오류(잔차)가 정규 분포를 따르고 서로 독립적이라고 가정합니다.
  • 시계열 분석
    시계열 분석은 데이터 포인트가 이전 관찰에 의존한다고 가정합니다. 즉, 데이터 포인트 사이에 시간적 상관관계가 있음을 의미합니다. 또한 정상성(데이터의 통계적 특성이 시간이 지남에 따라 변하지 않음) 및 계절성(일정한 간격으로 반복되는 패턴)과 관련된 가정 가집니다.

4. 모델링 기법

  • 회귀
    일반적인 회귀 기법에는 선형 회귀, 다중 회귀, 다항식 회귀 및 로지스틱 회귀(이진 결과의 경우)가 포함됩니다.
  • 시계열 분석
    시계열 분석은 자동 회귀 통합 이동 평균(ARIMA), 시계열의 계절적 분해(STL) 및 지수 평활 모델과 같은 방법을 사용합니다.

5. 응용 분야

  • 회귀
    회귀분석은 경제, 금융, 사회과학, 경영학 등 다양한 분야에서 설명변수를 기반으로 결과를 모델링하고 예측하는 데 자주 사용됩니다.
  • 시계열 분석
    시계열 분석은 경제 지표, 주가, 날씨 패턴, 판매 데이터 및 기타 시간적 종속성을 보이는 현상의 미래 가치를 예측하는 데 적용됩니다.

6. 요약하기

간단하게 표로 요약하면 다음과 같습니다. 

데이터 유형 단면 데이터 시계열 데이터
목표 독립 변수와 종속 변수 간의 관계 설정 시간 종속적 데이터를 기반으로 패턴 식별 및 미래 가치 예측
가정 선형관계, 잔차의 정규성, 오차의 독립성 시간적 상관관계, 정상성, 계절성
모델링 기법 선형회귀, 다중회귀, 다항회귀, 로지스틱회귀 ARIMA, STL, 지수평활
신청 다양한 분야의 결과 예측 및 설명 경제지표, 주가, 기상패턴 등 예측


7. 회귀 분석과 시계열 분석의 차이에 대한 개인적 견해 

선형회귀 분석은 설명력이 높지만, 정확도가 낮다는 문제가 있습니다. 이에 비해 시계열 분석은 회귀 분석에 비해 정확도가 높으면서 설명력도 가지고 있다는 것이 특징이라고 하겠습니다. 개인적인 생각입니다만, 이런 차이는 실제 현상의 복잡성을 데이터가 표현하기 어렵기 때문이라고 생각합니다. 

 

우리가 데이터를 분석하기 위해 수집하는 데이터는 실제 현상을 이루는 모든 데이터가 아니라, 수집 가능한 데이터에 한정됩니다. 예를 들어 집값을 예측한다고 했을 때, 우리는 집값을 예측하기 위해, 집의 평수, 층수, 주차장 크기 등 다양한 데이터를 수집할 것입니다. 하지만, 집값을 결정짓는 것이 이것만이 전부는 아니고, 수집하지 못한 정보나, 정부의 정책, 거시적인 경제 흐름 등 다양한 요소가 영향을 미칠 것입니다. 

 

이상과 현실의 차이

 

하지만, 현실적으로 우리가 수집할 수 있는 데이터에는 한계가 있고, 그렇다면 회귀 분석으로 예측하는 것에는 한계가 있을 수밖에 없습니다. 하지만, 딥러닝 등 복잡한 모델들은 수집된 데이터와 결과만으로 분명하지 않은 데이터를 어느 정도 추정할 수 있으며, 이를 통해 예측성능을 높입니다. 대신 모델의 복잡성으로 인해 설명력은 낮아지는 것이죠. 

 

이런 관점에서 시계열 분석을 바라보면, 시계열 데이터는 시간적인 종속성(자기상관성)을 가정으로 우리가 수집하지 못한 데이터가 이미 반영된 결과를 바탕으로 예측을 수행하는 것이라고 볼 수 있을 것 같습니다. 

 

 

 

 

728x90

댓글