본문 바로가기
728x90

우공이산250

[빅데이터분석기사 실기][작업형3] 일원배치법(One-Way ANOVA) 일원배치법 혹은 일원분산분석(One-Way ANOVA, One-Way Analysis of Variance)은 하나의 독립 변수(그룹 또는 처리)와 연속형 종속 변수(측정값) 간의 차이를 평가하는 통계적인 방법입니다. 이 방법으로 그룹 간의 평균 차이가 우연에 의한 것인지 통계적으로 검증할 수 있습니다. 일원배치법은 다음과 같은 과정으로 진행합니다. 가설 설정 귀무 가설(H0): 그룹 간의 평균은 모두 동일하다. 대립 가설(H1): 적어도 하나의 그룹의 평균은 다른 그룹과 유의하게 다르다. 기본 가정 검증 일원배치법에 따른 검증이 유효하려면 충족되어야 하는 몇 가지 가정이 있습니다. 이러한 가정에는 다음이 포함됩니다. 독립성: 각 그룹 내의 관측값은 서로 독립적인 것으로 가정합니다. 이는 한 그룹의 측정.. 2023. 5. 20.
[빅데이터분석기사 실기][작업형3] 상관계수 상관 계수는 두 변수 간의 선형 관계의 강도와 방향을 측정합니다. 상관 계수의 범위는 -1에서 1까지이며 여기서 -1은 완벽한 음의 상관관계를 나타내고 1은 완벽한 양의 상관관계를 나타내며 0은 상관관계가 없음을 나타냅니다. 상관 계수가 양수(1에 가까울수록)이면 한 변수가 증가하면 다른 변수도 증가하는 경향이 있음을 나타냅니다. 예를 들어, 공부한 시간과 시험 점수 사이의 관계를 조사하는 경우 양의 상관 계수는 공부를 더 많이 하는 학생이 더 높은 점수를 얻는 경향이 있음을 나타냅니다. 반면에 상관 계수가 음수(-1에 가까울수록)이면 한 변수가 증가하면 다른 변수는 감소하는 경향이 있음을 나타냅니다. 예를 들어 온도와 아이스크림 판매 간의 관계를 조사하는 경우 음의 상관 계수는 온도가 상승함에 따라 아.. 2023. 5. 20.
[빅데이터분석기사 실기][작업형3] 정규성 검정(Shapiro-Wilk Test) Shapiro-Wilk 검정은 데이터 샘플의 정규성을 평가하는 데 사용되는 통계 테스트입니다. Shapiro-Wilk 검정은 정규성을 가정하여 표본 데이터와 기댓값 간의 상관관계를 기반으로 검정 통계량을 계산합니다. 정규성에서 관측된 편차를 우연히 얻을 확률을 나타내는 p-값을 생성합니다. p-값이 선택한 유의 수준(예: 0.05) 보다 작으면 데이터가 정규 분포에서 크게 벗어났다는 것을 나타냅니다. 이때 귀무가설(H0)은 "데이터가 정규분포를 따른다." 대립가설(H1)은 "데이터가 정규분포를 따르지 않는다."입니다. 데이터 분석에서 데이터의 정규성이 기본적인 가정이므로, 이것을 깨는 것(증명하는 것)이 대립가설로 정해집니다. 앞서 배운 t검정과 반대인 느낌적인 느낌을 가지고 있어서, 혼돈이 올 수 있습.. 2023. 5. 18.
[빅데이터분석기사 실기][작업형3] t검정(대응표본, 독립표본, 단일표본) 간단 요약 - 대응표본 가설검정은 시점 차이 등에 따라 쌍을 이루는 관찰이 있을 때 사용한다. - 독립표본 가설검정은 두 독립 집단의 측정치를 비교할 때 사용한다. - 단일표본 가설검정은 알려지거나 가정한 평균과 단일 집단의 평균을 비교할 때 사용한다. - 세 가지 가설 검정은 모수 검정으로서 데이터가 정규분포를 따른다고 가정한다. t-검정에 대해서는 아래 자료를 참고: https://mindscale.kr/course/basic-stat-python/15/ 대응표본 가설 검정 대응표본 가설 검정은 동일한 집단의 관측값이 서로 다른 조건 또는 서로 다른 시점에 따라 차이가 있는 경우, 관측치의 평균 사이에 유의한 차이가 있는지 확인합니다. 예를 들어 개인 그룹이 있고 치료 전후에 혈압을 측정한다고 가정하.. 2023. 5. 18.
비지도학습의 앙상블 방법(iris) 회사에서 시스템 개선을 위한 문제 발굴 차원에서 텍스트 데이터를 수집해서 분석을 하고 있습니다. 수십만 개 고객의견을 눈으로 보고 손으로 분류하기는 힘들어서 군집 분석을 한 후에 토픽 모델링으로 맥락을 찾으려고 했는데요. 대략적인 전처리를 한 후에 몇 가지 군집분석 알고리즘으로 분류를 해보았지만, 제대로 군집이 만들어지지는 않았습니다. 문득, 우리가 지도학습에서 앙상블 하는 것처럼 비지도학습에서도 앙상블을 할 수 있지 않을까 싶어서 ChatGPT의 도움을 받아 비지도학습 앙상블 하는 방법을 찾아서 공유합니다. 원래는 텍스트를 분류하는 것이었지만, 여기서는 간단하게 iris 데이터로 진행합니다.from sklearn.datasets import load_iris from sklearn.cluster imp.. 2023. 5. 12.
아빠! 축구 제일 잘하는 사람 소씨지? 오늘 딸아이 이를 닦아주는데, 갑자기 치약을 뱉어버리고, 묻는다 "아빠! 축구 제일 잘하는 사람 소씨지??" 음.. 아닌 거 같은데..? "축구 제일 잘하는 사람은 메시지" "아니야~ 축구 제일 잘하는 사람 소씨야~ 소능민이잖아" ㅋㅋㅋ 우리 딸 너무 귀엽다. 이래서 딸 키우나 보다 저번에는 손흥민이 아빠보다 잘생겼다고 말해서 나에게 충격을 주었었다. 손흥민이 멋있긴 한데, 얼굴만 딱 놓고 봤을 때 잘 생겼다고 하기 어렵지 않나??? 그래서 아내에게 "손흥민이 나보다 잘생겼어? 손흥민이 멋있다는 몰라도 잘 생겼다는 아니지 않아?" 물어보자 "그걸 말이라고해? 진심으로 그렇게 생각하는 거야?" 라며 날 미친 놈 보듯 보았다. 손흥민 ㅅㅂㄹㅁ... 2023. 5. 3.
Bard 출시!!! ChatGPT vs Bard 승자는? 1. Bart 출시 ChatGPT의 대항마, 구글의 Bard가 출시되었습니다. ChatGPT가 각광을 받자 구글도 2월에 급히 시연을 했다가 망신을 당했었는데, 이제 정식 출시가 되었습니다. https://www.newspim.com/news/view/20230208001221 챗GPT 대항마 구글AI '바드', 오답 망신살...주가 7%↓[휴스턴=뉴스핌] 고인원 특파원= 전 세계적인 열풍을 몰고 온 오픈AI ' 챗GPT'의 대항마가 될 것으로 기대를 모았던 구글의 AI '바드(Bard)'가 오답을 내놓았다는 지적이 나왔다.바드의 정확성에 대newspim.com 그랬던 구글이 3.21 미국과 영국에서 바드를 정식 출시 했습니다. 출시 직후에는 한국에서 사용이 불가능했는데, 현재는 waitlist에 등록하.. 2023. 4. 28.
[빅데이터 분석기사 필기] 제6회 필기 시험 합격 후기 지난 4.8(토)에 빅데이터 분석기사 6회 필기시험을 보고 왔습니다. adsp 자격증이 이미 있기 때문에 비슷한 수준이 아닐까 생각하였고, 당근마켓에서 2022 이기적 수험서 사서 2주 정도 공부했습니다. 이기적에서 제공하는 CBT 모의고사를 보았을 때, 합격 수준으로 점수가 나와서, 많은 공부가 필요하지는 않겠다고 생각했습니다. 그래도 블로그에 내용 정리하면서, 이기적(2022) 1회 독은 했고, CBT모의고사로 기출문제 2~3회 정도 풀었습니다. CBT모의고사는 문제 은행식인데, 문제 풀(Pool)이 작은지, 비슷한 문제가 반복되어서 시험 보러 가기 전날에는 80~90점 정도 나왔습니다. 이 정도면 합격하겠지.. 생각했는데, 막상 시험을 보니, 너무 어려웠습니다. 시험 끝나고, 데이터 전문가 포럼(네.. 2023. 4. 21.
POC(Proof Of Concept), Prototype, MVP(Minimum Viable Product)의 차이 얼마 전에 신입사원을 새로 받았습니다. 오늘 POC에 대해 질문을 하더군요. 마침 또 얼마 전에 패스트캠퍼스에서 프로덕트 매니지먼트(Product Management)에 대한 온라인 강의를 들었는데, 이 내용이 있어서, 막힘없이 설명해 줄 수 있었습니다. https://fastcampus.co.kr/dev_red_kyw The RED : 모든 비즈니스를 성공으로 이끄는 Product Management Essential by 김영욱 | 패스트캠퍼스 전 세계 180개국, 11만 임직원, 50만 고객사를 거느린 글로벌 SAP 기업의 PM 김영욱님, PM/PO 직무의 정확한 R&R부터 비즈니스를 성공으로 이끄는 제품 개발법을 배워보세요~! 이번 강의는 모든 비즈니 fastcampus.co.kr 강의 내용과 개.. 2023. 4. 21.
728x90