본문 바로가기
728x90

데이터분석과 AI81

비지도학습의 앙상블 방법(iris) 회사에서 시스템 개선을 위한 문제 발굴 차원에서 텍스트 데이터를 수집해서 분석을 하고 있습니다. 수십만 개 고객의견을 눈으로 보고 손으로 분류하기는 힘들어서 군집 분석을 한 후에 토픽 모델링으로 맥락을 찾으려고 했는데요. 대략적인 전처리를 한 후에 몇 가지 군집분석 알고리즘으로 분류를 해보았지만, 제대로 군집이 만들어지지는 않았습니다. 문득, 우리가 지도학습에서 앙상블 하는 것처럼 비지도학습에서도 앙상블을 할 수 있지 않을까 싶어서 ChatGPT의 도움을 받아 비지도학습 앙상블 하는 방법을 찾아서 공유합니다. 원래는 텍스트를 분류하는 것이었지만, 여기서는 간단하게 iris 데이터로 진행합니다.from sklearn.datasets import load_iris from sklearn.cluster imp.. 2023. 5. 12.
Bard 출시!!! ChatGPT vs Bard 승자는? 1. Bart 출시 ChatGPT의 대항마, 구글의 Bard가 출시되었습니다. ChatGPT가 각광을 받자 구글도 2월에 급히 시연을 했다가 망신을 당했었는데, 이제 정식 출시가 되었습니다. https://www.newspim.com/news/view/20230208001221 챗GPT 대항마 구글AI '바드', 오답 망신살...주가 7%↓[휴스턴=뉴스핌] 고인원 특파원= 전 세계적인 열풍을 몰고 온 오픈AI ' 챗GPT'의 대항마가 될 것으로 기대를 모았던 구글의 AI '바드(Bard)'가 오답을 내놓았다는 지적이 나왔다.바드의 정확성에 대newspim.com 그랬던 구글이 3.21 미국과 영국에서 바드를 정식 출시 했습니다. 출시 직후에는 한국에서 사용이 불가능했는데, 현재는 waitlist에 등록하.. 2023. 4. 28.
[빅데이터 분석기사 필기] 제6회 필기 시험 합격 후기 지난 4.8(토)에 빅데이터 분석기사 6회 필기시험을 보고 왔습니다. adsp 자격증이 이미 있기 때문에 비슷한 수준이 아닐까 생각하였고, 당근마켓에서 2022 이기적 수험서 사서 2주 정도 공부했습니다. 이기적에서 제공하는 CBT 모의고사를 보았을 때, 합격 수준으로 점수가 나와서, 많은 공부가 필요하지는 않겠다고 생각했습니다. 그래도 블로그에 내용 정리하면서, 이기적(2022) 1회 독은 했고, CBT모의고사로 기출문제 2~3회 정도 풀었습니다. CBT모의고사는 문제 은행식인데, 문제 풀(Pool)이 작은지, 비슷한 문제가 반복되어서 시험 보러 가기 전날에는 80~90점 정도 나왔습니다. 이 정도면 합격하겠지.. 생각했는데, 막상 시험을 보니, 너무 어려웠습니다. 시험 끝나고, 데이터 전문가 포럼(네.. 2023. 4. 21.
[빅데이터분석기사 필기] Part04. 빅데이터 결과 해석-Ch02. 분석결과 해석 및 활용 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 분석결과 해석 - 중요도 하(★) 1. 분석 모델별 결과 해석 - 분석모형 해석 (1) 회귀모델: MAE, MSE, MAPE, RMSE, RMSLE, R^2(R squared), 수정된 R^2(adjusted R squared) . 잔차는 회귀모형으로 실제 값과 예측 값의 차이를 의미하는 것이며, 잔차에는 패턴이나 추세가 있어서는 안 된다. . 결정계수는 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표 . 딥러닝 모델 해석에 사용하는 오차율은 상대오차나 평균 제곱근 편차를 사용한다. (2) 분류모델: 각각의 경우에 따라 클래스 별로 속할 확률의 정확도를 살펴본다. . 혼동행렬.. 2023. 4. 17.
[빅데이터분석기사 필기] Part04. 빅데이터 결과 해석-Ch01. 분석모형 평가 및 개선 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 분석모형 평가 - 중요도 상(★★★) 1. 평가 지표 - 지도학습-분류모델 평가 지표 - 오차행렬을 통해 평가한다. (1)~(5) 오차행렬(혼동행렬), 정확도, 정밀도, 재현율, F1 Score는 아래 포스팅으로 대체한다. https://woogong80.tistory.com/67 Confusion Matrix(혼동 행렬)과 평가지표 이해하기 Confution Matrix란? 오늘 정리해 볼 것은 Confusion Matrix입니다. 시스템이 분류 문제를 얼마나 헷갈려하는지 알 수 있는 표라고 Confusion Matrix인데, 이 표를 보고 있는 사람도 혼동이 와서 혼동행렬이라 wo.. 2023. 4. 7.
[빅데이터분석기사 필기] Part03. 빅데이터 모델링-Ch02. 분석기법 적용 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 분석기법 - 중요도 상(★★★) 1. 분석기법 개요 - 학습 유형에 따른 데이터 분석 모델: 지도학습, 비지도학습, 준지도학습, 강화학습 (1) 지도학습: 정답이 있는 데이터를 활용해 학습, 대표적으로 분류(Classification)와 회귀(Regression)로 구분 (2) 비지도학습: 정답 없는 데이터를 컴퓨터 스스로 학습하여 숨겨진 의미, 패턴을 찾아내고 구조화, 빅데이터 분석 프로젝트에서 초기 데이터가 동질적인 소수집단으로 이루어져 있는지, 이질적인 많은 집단으로 구성되어 있는지 탐색하는 데에도 활용될 수 있다. . 비지도학습의 종류로 군집분석, 연관성분석, 인공신경망, 오토.. 2023. 4. 7.
[빅데이터분석기사 필기] Part03. 빅데이터 모델링-Ch01. 분석 모형 설계 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 분석 절차 수립 - 중요도 하(★) 1. 분석 모형 선정 - 분석 목적: 의사결정, 불확실성해소, 요약, 인과관계 파악, 예측 - 빅데이터 분석 근본 목적: 과거의 데이터를 토대로 원인에 대해 분석하고 그 결과로 미래를 예측 . 데이터는 후행성 성격을 지니지만 선행성의 성격도 가지고 있다. . 가트너 그룹 빅데이터분석 목적: 고객 인사이트, 제품 및 절차 효율성, 디지털 제품 및 서비스, 운영의 탁월성, 디지털 마케팅, 위기관리시스템 - 분석 모형 선정 프로세스 . 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석목표/조건 정의 . 데이터 수집, 정리 및 도식화 . 데.. 2023. 4. 6.
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch03. 통계기법의 이해 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 기술통계 - 중요도 중(★★) 1. 데이터 요약 - 데이터의 분포가 가지는 특성을 찾아내서 본격적인 분석 이전에 기본적이 ㄴ특징을 수치적으로 정량화하여 기술한다. 주로 기초 통계량을 산출하여 결과를 도출한다. 탐색적 데이터 분석: 수집된 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것으로 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정이다. 2. 표본추출 - 모집단(연구, 실험의 결과가 일반화된 큰 집단, 정보를 얻고자 하는 관심 대상의 전체집합으로 정의) 표본, 표본추출 - 전수조사와 표본조사 (1) 전수조사: 모집단 전체 .. 2023. 4. 5.
[빅데이터분석기사 필기] Part02. 빅데이터 탐색-Ch02. 데이터 탐색 ※ 모든 내용을 정리한 것은 아니며, 중요도가 낮거나, 공부하지 않아도 맞출 수 있는 부분은 정리하지 않았습니다. 01. 데이터 탐색의 기초 - 중요도 중(★★) 1. 데이터 탐색의 개요 - 탐색적 데이터 분석: 수집된 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것으로 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정이다. - 탐색적 데이터 분석의 필요성: 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해하며 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있다. 문제점 발견 시 본 분석 전 데이터의 수집 의사를 결정할 수 있다. 문제정의 단계에서 인지 못한 새로운 양상, 패턴을 발견할 수 있다. 새로운 양상을 발견 시 초.. 2023. 4. 2.
728x90