본문 바로가기
728x90

데이터분석과 AI81

[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch01. 데이터 전처리 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 데이터 정제 - 중요도 하(★) 1. 데이터에 내재된 변수의 이해 - 데이터 관련 정의: 데이터, 단위(Unit), 관측값, 변수, 원자료(Raw Data) (1) 단위(Unit): 관찰되는 항목 또는 대상 - 데이터의 종류 (1) 단변량 자료: 자료의 특성을 대표하는 특성 변수가 하나 (2) 다변량 자료: 자료의 특성을 대표하는 특성 변수가 둘 이상 (3) 질적 자료: 정성적 또는 범주형 자료, 명목자료, 서열자료 등 이질적 자료로 분류 . 명목자료: 측정대상이 범주나 종류에 대해 구분되는 것을 수치 또는 기호로 분류되는 자료(ex. 전화번호 국번) . 서열자료: 명목자료와 비슷하나.. 2023. 4. 1.
[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch03. 데이터 수집 및 저장 계획 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 데이터 수집 및 전환 - 중요도 하(★) 1. 데이터 수집 - 여러 장소에 있는 데이터를 한 곳으로 모으는 것 - 데이터 수집 수행 자료: 용어집, 원천 데이터 소유 기관 정보, 서비스 흐름도, 데이터 명세서, 각종 매뉴얼, 비즈니스 모델 - 비즈니스 도메인과 원천 데이터 정보 수집: 비즈니스 모델, 용어집, 프로세스, 도메인 전문가 인터뷰, 원천 데이터의 수집 가능성, 보안, 정확성, 수집 난이도와 비용 (신속성 X) - 내외부 데이터 수집: 내부 데이터는 실시간 수집, 외부데이터는 일괄 수집, 일정 주기 수집(이걸 이렇게 딱 정할 수 있나..) - 데이터의 특징 : 단순한 객체로도.. 2023. 3. 30.
[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch02. 데이터 분석 계획 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다.01 분석 방안 수립 - 중요도 상(★★★)1. 데이터 분석- 데이터 분석: 인사이트를 발굴하고 이를 공유하여 의사결정을 지원하는 것을 목표로 데이터를 정의, 수집 변환, 모델링, 시각화하는 과정이다. - 빅데이터를 활용하기 위한 장애물은 비용보다 데이터 분석을 수행하기 위한 분석적 방법과 성과에 대한 이해의 부족이다. - 데이터 분석 시 고려사항: 데이터 분석은 규모가 아니라 어떤 시각과 통찰을 얻을 수 있는가의 문제이다. 2. 데이터 분석 기획- 어떠한 목표를 달성하기 위해 어떠한 데이터를 가지고 어떤 방식으로 수행할 것인가에 대한 일련의 계획을 수립한다. - 분석기획은 분석 과제 및 프로.. 2023. 3. 29.
[빅데이터분석기사 필기] Part01. 빅데이터 분석 기획-Ch01. 빅데이터의 이해 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 빅데이터 개요 및 활용 - 중요도 하(★) 1. 데이터와 정보 - 데이터의 정의 : 추론과 추정의 근거를 이루는 사실 - 데이터의 특징 : 단순한 객체로도 가치가 있으며, 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다. - 데이터의 구분 정량적 데이터 정성적 데이터 유형 정형, 반정형 비정형 특징 여러 요소의 결합으로 의미 부여 객체 하나가 함축된 의미 내포 관점 객관적 주관적 구성 수치, 기호 문자, 언어 형태 데이터베이스, 스프레드시트 웹 로그, 텍스트 파일 위치 DBMS, 로컬 시스템 등 내부 웹사이트 모바일 플랫폼 등 외부 분석 쉬움 어려움 - 데이터의 유형 (품질과는 무.. 2023. 3. 26.
ChatGPT의 한계 - AGI(Artificial General Intelligence)와 ANI(Artificial Narrow Intelligence)의 차이 ChatGPT 열풍!!! 2년 11월 ChatGPT 출시로 많은 사람이 충격을 받았습니다. 알파고 등장 시 전세계에 AI광풍이 분 것 이상으로 세계가 요동치고 있습니다. ChatGPT를 활용하는 다양한 방법들이 나오기도 하고, 관련 주들은 연속 상한가를 가기도 하는데요.(근데 왜 제 거는 안오르나요) 바둑두는 사람이 아니면, 삶에 미치는 영향이 거의 없었던 알파고와 달리 1750억개의 파라미터를 사용한다는 ChatGPT는 범용성을 갖추고 있고, 웹페이지에서 서비스를 제공하고 있어서 누구나 쉽게 접근할 수 있습니다. 간단한 질문에 대한 답부터, 자신의 생각을 정리하는 데 쓰기도 하고, 영어공부를 하는데 사용한다는 사람도 있고, 간단한 코드를 대신 짜주기도 합니다. 그러다보니, 일각에서는 ChatGPT가 모.. 2023. 3. 6.
ChatGPT 열풍!! 대체 뭐길래? 체험 후기 최근 ChatGPT관련하여 구글을 위협하는 AI모델이 나왔다고 기사가 쏟아졌습니다. 대체 ChatGPT가 어느 수준인가 궁금해서 한번 체험을 해보았습니다. ChatGPT가 뭐야? ChatGPT는 챗봇 애플리케이션을 위해 특별히 설계된 GPT-3 언어 모델의 변형입니다. 인간 대 인간 대화의 대규모 데이터 세트를 학습하여 주어진 입력에 대해 인간과 유사한 응답을 생성할 수 있습니다. ChatGPT는 대화의 맥락을 이해하고 일관성을 유지할 수 있어 고객 서비스, 가상 비서 및 언어 번역과 같은 작업에 적합합니다. 또한 시간이 지남에 따라 새로운 개념과 정보를 배우고 적응할 수 있으므로 사용하면서 성능을 향상할 수 있습니다. 전반적으로 ChatGPT는 자연스럽고 사람과 같은 대화에 참여할 수 있는 챗봇을 만들.. 2023. 1. 8.
10. 수식 (if문) 기본적인 엑셀 편집은 배웠고, 이제 자주 사용하는 수식을 Python에서 어떻게 쓰는지 배워보겠습니다. 가장 먼저 배울 것은 IF문입니다. if문은 다음과 같이 사용합니다. if 조건: 실행문 예제를 한번 볼까요? x를 입력받아서 짝수인지 홀수인지 판단한다고 하겠습니다. x에 10을 입력했고, % 는 나머지를 구하는 연산자입니다. 2로 나누어서 나머지가 0이면 짝수, 0이 아니면 홀수로 출력하였습니다. x=10 if x%2 ==0: print("짝수") else: print("홀수") 어렵지 않죠? 이제 이것을 응용해서 boston_data의 값에 적용하겠습니다. boston_price 데이터는 대부분 수치형으로 되어있습니다. 조금 보기 편하게 범주로 묶어볼까 합니다. DIS(5개의 보스턴 직업센터까지의.. 2022. 12. 14.
9. 채우기 (apply문) 앞서 채우기 방법으로 for 문을 사용했습니다. for문은 직관적으로 이해가 쉽지만, 느린 것이 단점입니다. 데이터가 작으면 괜찮지만, 데이터가 커지고 로직이 복잡해질수록 for문 수행 속도가 느려집니다. 일반적으로 python에서는 이런 경우에 for문을 사용하지 않습니다. 이럴 때 쓰라고 최적화해서 만들어 놓은 apply문을 사용합니다. apply 함수 사용법 apply(함수, axis= 0 or 1) apply는 apply 안에 매개변수로 받은 함수에 DataFrame의 한 개 행 전체, 혹은 한 개 열의 값을 전달하여 계산하고 그 결과를 반환합니다. 함수에 DataFrame의 한 개 행을 전달하는 경우 말로 하면 어려우니, 예시를 보겠습니다. 우선 apply의 매개변수인 함수에 DataFrame의.. 2022. 12. 14.
8. 채우기(for문) 이제 Excel의 채우기를 해보겠습니다. Excel의 채우기는 핸들잡고 드래그만 해주면 되었는데요. Python에서는 채우기 같은 기능은 없습니다. 대신 몇가지 대체할 만한 함수가 있습니다. 우선 이번에는 for문을 사용해봅니다. for문은 반복문이라고 하며, 특정 로직을 반복하게 합니다. for문은 아래와 같은 형식으로 사용합니다. for 원소 in 리스트: 수행할 로직 리스트는 수행대상이며, 리스트의 각 원소에 대해 정해진 로직을 수행하게 됩니다. 이제 for문을 이용해서 1을 채워 보겠습니다. # boston_price.index는 0부터 505까지의 값을 가지고 있습니다. for i in boston_price.index: boston_price.loc[i,'SEQ']=1 #i행 'SEQ'열에 1.. 2022. 12. 13.
728x90