실전 시계열 분석-Practical Time Series Analysis 리뷰
데이터 분석을 처음 시작하게 되면 회귀, 분류 알고리즘을 배우고 적용해 보게 됩니다. 그리고 업무에 적용해 보려고 애쓰다 보면, 매출, 고객 VOC, 오류율 등 다양한 비즈니스 데이터가 시계열 특성을 가지고 있음을 알게 됩니다. 시계열 데이터는 초보 분석가가 배웠던 선형 회귀 알고리즘으로 분석이 어려운 부분이 존재합니다. 블로그나, 유튜브, 인터넷 강의로 공부를 하면서, 이론적으로 보강을 하기 위해 이 책을 읽게 되었습니다. 이 책은 제목 그대로 시계열 분석에 한정해서 서술하고 있습니다. 시계열에 대한 기본적인 이론과 대표적인 통계 알고리즘인 ARIMA부터, 상태공간 모델로서, 칼만 필터, 은닉 마르코프 모형, 베이즈 구조적 시계열을 다루고, 머신러닝과 딥러닝에서 시계열을 활용하는 방법을 다룹니다. 그리..
2023. 8. 23.
pd.describe() 사용법
파이썬에서 데이터를 로딩하고 가장 많이 사용하는 함수 중의 하나가 describe 함수입니다. 사용법은 간단한데, descirbe 함수가 범주형에 대해서도 통계정보를 생성해 준다는 것을 모르는 분들이 종종 있어서 정리해 놓습니다. 1. 예시 데이터 생성 import pandas as pd data = {'Age': [25, 30, 22, 40, 28], 'Height': [170, 160, 175, 162, 180], 'Weight': [65, 70, 60, 75, 85], 'Gender': ['Male', 'Female', 'Male', 'Female', 'Male']} df = pd.DataFrame(data) 2. 수치형 데이터에 대한 통계 생성 print("Numeric Data Summary:"..
2023. 8. 16.