본문 바로가기
728x90

데이터분석과 AI81

인공지능(Artificial Intelligence)이란 무엇인가? - 정의와 역사(1936~현재) 2013년 구글의 알파고로부터 전 세계적인 인공지능(Artificial Intelligence)붐이 일어났습니다. 이 때는 AI라는 새로운 시장에 진출하려는 기업들 위주로 연구와 기술 개발이 이루어졌고, 일반인 입장에서는 뜬구름 잡는 이야기였습니다. 그러나, 22년 11월 OpenAI가 발표한 ChatGPT는 순식간에 전 세계로 퍼지면서 일상 속에서 AI 시대가 다가왔습니다. 저도 그동안은 데이터 분석 위주로 공부했으나, AI에 대해 공부할 필요도 느껴져서,공부를 해보려 합니다. 오늘은 인공지능이란 무엇이고, 어떻게 발전해 왔는지 알아보겠습니다. 1. 인공지능의 정의 인공지능은 전문가들의 관점에 따라 여러가지로 정의됩니다. 여러 가지 의견이 있으나, 스튜어트 러셀과 피터노빅은 아래와 같이 4개의 영역으로.. 2023. 12. 16.
실전 시계열 분석-Practical Time Series Analysis 리뷰 데이터 분석을 처음 시작하게 되면 회귀, 분류 알고리즘을 배우고 적용해 보게 됩니다. 그리고 업무에 적용해 보려고 애쓰다 보면, 매출, 고객 VOC, 오류율 등 다양한 비즈니스 데이터가 시계열 특성을 가지고 있음을 알게 됩니다. 시계열 데이터는 초보 분석가가 배웠던 선형 회귀 알고리즘으로 분석이 어려운 부분이 존재합니다. 블로그나, 유튜브, 인터넷 강의로 공부를 하면서, 이론적으로 보강을 하기 위해 이 책을 읽게 되었습니다. 이 책은 제목 그대로 시계열 분석에 한정해서 서술하고 있습니다. 시계열에 대한 기본적인 이론과 대표적인 통계 알고리즘인 ARIMA부터, 상태공간 모델로서, 칼만 필터, 은닉 마르코프 모형, 베이즈 구조적 시계열을 다루고, 머신러닝과 딥러닝에서 시계열을 활용하는 방법을 다룹니다. 그리.. 2023. 8. 23.
pd.describe() 사용법 파이썬에서 데이터를 로딩하고 가장 많이 사용하는 함수 중의 하나가 describe 함수입니다. 사용법은 간단한데, descirbe 함수가 범주형에 대해서도 통계정보를 생성해 준다는 것을 모르는 분들이 종종 있어서 정리해 놓습니다. 1. 예시 데이터 생성 import pandas as pd data = {'Age': [25, 30, 22, 40, 28], 'Height': [170, 160, 175, 162, 180], 'Weight': [65, 70, 60, 75, 85], 'Gender': ['Male', 'Female', 'Male', 'Female', 'Male']} df = pd.DataFrame(data) 2. 수치형 데이터에 대한 통계 생성 print("Numeric Data Summary:".. 2023. 8. 16.
부동소수점 이란? 부동소수점 계산 방식에 따른 오차 발생 예제 빅데이터분석기사 준비 중에 논리적으로는 맞지만, 실제로는 답이 틀리는 경우를 경험한 적이 있습니다. 부동소수점 계산방식으로 인한 오류였는데요. IEEE 754 부동소수점 표기법이란? IEEE 754 부동소수점 표기법은 실수에 대한 산술 연산을 이진 형식으로 표현하고 수행하기 위해 널리 사용되는 표준입니다. 부동 소수점 숫자가 구조화되고 메모리에 저장되고 조작되는 방식을 정의합니다. 이 표기 방식은 컴퓨터가 일관되고 표준화된 접근 방식으로 매우 큰 값과 매우 작은 값을 포함하여 광범위한 숫자를 처리할 수 있도록 하기 때문에 컴퓨팅에서 특히 중요합니다. IEEE 754에서 부동 소수점 숫자는 다음과 같이 표현됩니다. 부호 비트(s): 이 비트는 숫자의 부호를 나타냅니다. 0은 양수를 나타내고 1은 음수를 나.. 2023. 8. 8.
시계열 데이터의 특징 5가지 시계열 데이터는 관측치가 특정 시간 간격으로 기록되는 데이터를 의미합니다. 이런 시계열 데이터에는 다른 유형의 데이터와 구별되는 몇 가지 특정 특성이 있습니다. 시간 종속성(Time Dependence): 시계열 데이터는 시간을 기준으로 정렬되며 데이터 포인트의 순서가 중요합니다. 각 관찰은 이전 관찰과 미래 관찰에 따라 달라집니다. 계절성(Seasonality): 많은 시계열이 계절성으로 알려진 반복 패턴 또는 주기를 나타냅니다. 이러한 패턴은 매일, 매주, 매월 또는 매년과 같이 고정된 간격으로 발생할 수 있습니다. 추세(Trend): 추세는 시간 경과에 따른 데이터의 장기적인 움직임을 나타냅니다. 증가, 감소 또는 정지(일정)할 수 있습니다. 노이즈(Noise): 노이즈는 특정 패턴이나 원인에 기인.. 2023. 8. 4.
회귀분석과 시계열분석의 차이 수치를 예측하는 두 가지 분석 방법이 있습니다. 보통 처음 머신러닝을 배우게 되면 회귀를 통해 수치를 예측하는 것을 배웁니다. 그러다 이제 시계열 분석을 알게 되는데요. 회귀와 시계열 분석은 어떤 차이가 있고, 어떨 때 사용하는 것이 좋은지 정리해 보겠습니다. 1. 데이터 유형 회귀 회귀 분석에서 데이터는 하나 이상의 독립 변수(예측 변수)와 종속 변수(예측하려는 결과)로 구성됩니다. 시간의 흐름이 반영되어 있지 않으며, 이를 횡단면데이터라고 부릅니다. 시계열 분석 시계열 분석에서는 일정한 간격으로 시간에 따라 데이터를 수집합니다. 데이터는 시간 종속적이며 각 관찰은 이전 관찰의 영향을 받습니다. 이를 시계열 데이터라고 부릅니다. ※ 다수의 시점에 다수의 독립변수를 가지고 있는 경우 시계열 횡단면 데이터.. 2023. 8. 2.
데이터 역량을 키우는 방법 - 공공기관 데이터 역량강화 가이드라인 데이터 과학자나 분석가 엔지니어 등 데이터 관련 직종으로 커리어 개발을 할 때, 어떻게 학습을 이어가야 할지 막막할 때가 많습니다. 닥치는 대로 이것저것 교육도 듣고, 조언도 들어보지만, 사람마다 하는 말이 달라서 혼동이 옵니다. 그러던 중 이번에 회사에서 PM들의 데이터 역량을 강화하라는 미션이 떨어졌고, TF의 리더를 맡으신 차장님께서 알려주셔서 "공공기관 데이터 역량 강화 가이드라인"을 알게 되었습니다. 이 가이드라인은 Improving Agency Data Skills Playbook(2020, 미국 Federal Data Strategy)과 빅데이터분석기사 국가기술자격 종목 개발 연구(2018, 한국직업능력개발원)를 바탕으로 만들어졌다고 합니다. 데이터 역량 지표는 아래와 같이 크게 6가지의 역.. 2023. 7. 25.
로그와 지수 함수 - np.log(), np.exp() 회사에서 상품별 매출 추이를 분석할 일이 생겼습니다. 향후 매출 추이를 그려보고, 가입자가 감소하는 상품은 퇴출시키던지, 다시 활성화시키던지 판단을 하려고 합니다. 이때 단항의 선형 회귀선을 사용하니, 가입자가 증가 추세에 있는 상품은 너무 과하게 증가하고, 가입자가 감소 추세에 있으면 0 이하로 떨어져 버리는 문제가 있습니다. 그래서 지수함수를 회귀식에 사용하려고 하고, 지수함수 회귀를 위해 로그와 지수함수에 대해 먼저 정리하고 갑니다. 1. 자연상수 'e'에 대한 지수함수 - np.exp() 지수는 반복되는 곱셈을 나타냅니다. 예를 들어 n의 거듭제곱으로 된 a(a^n으로 표시됨)는 a를 n번 곱하는 것을 의미합니다. np.exp()는 여기서 밑수인 a가 자연 상수 'e'(약 2.71828)이고, 이.. 2023. 7. 15.
동일한 플롯에 스케일이 다른 그래프를 그리고 싶을 때 twinx() 오늘은 회사에서 스케일 차이가 많이 나는 수치형 데이터의 추이를 비교해 볼 일이 있었습니다. 한 개의 플롯에 두 개의 그래프(차트)를 그려 넣는 방법을 찾아보고 정리합니다. matplotlib.axes.Axes.twinx matplotlib에서 제공하는 twinx를 사용하면, 동일한 플롯 내에서 x축을 공유하는 또 다른 y축을 생성할 수 있습니다. 아래는 간단한 예제입니다. 이 예에서는 'y1'의 기본 y축으로 'ax1'을 사용하고 'y2'의 보조 y축으로 'ax2'를 사용합니다. twinx() 함수는 동일한 x축을 공유하는 두 번째 y축을 생성합니다. 각각의 y축에 있는 두 선 그래프를 구별하기 위해 서로 다른 색상과 레이블을 할당합니다. import matplotlib.pyplot as plt # S.. 2023. 7. 13.
728x90