본문 바로가기
728x90

데이터분석과 AI81

[빅데이터분석기사 실기][작업형3] 등분산 검정(levene, bartlett, fligner) 등분산 검정 또는 분산 동질성 검정이라고도 하는 등분산 검정은 둘 이상의 그룹 또는 샘플의 분산이 동일한지 여부를 확인하는 데 사용되는 통계 검정입니다. 이는 독립 표본 t 검정 및 분산 분석(ANOVA)과 같은 여러 통계 검정에서 중요한 가정입니다. 분산이 크게 다른 경우 통계 테스트의 유효성과 신뢰성에 영향을 미쳐 부정확한 결론을 내릴 수 있습니다. 등분산 검정은 아래와 같이 3가지가 있고, 각각 특징이 있습니다. Levene's Test: 그룹 평균과의 절대 편차를 비교하고 정규성 이탈에 덜 민감합니다. Bartlett's Test: 그룹 분산을 기반으로 분산을 비교하고 데이터의 정규성을 가정합니다. Fligner's Test: 절대 편차의 중앙값을 비교하는 비모수 검정이며 정규성 편차에 대해 견고.. 2023. 6. 25.
[빅데이터분석기사 실기][작업형3] 비모수 검정 wilcoxon 부호순위 테스트 (단일표본, 대응표본) 단일표본 t-검정이나, 대응표본 t-검정은 데이터의 정규성을 가정하고 있습니다. 따라서 데이터의 정규성이 확보되지 않은 경우에는 비모수 검정 방법으로 Wilcoxon 부호 순위 테스트를 이용합니다. 1. 단일 표본 아래에서 참가자 그룹의 반응 시간이 200ms로 설정한 중위값과 다른지 확인하려고 한다고 가정합니다. 우선 Shapiro-Wilk 테스트로 정규성 검정을 합니다. from scipy.stats import shapiro, wilcoxon # Data for the single sample reaction_times = pd.Series([180, 210, 190, 220, 210, 211,195, 120, 130]) hypothesized_median = 200 statistic, p_valu.. 2023. 6. 24.
[빅데이터분석기사 실기] 시험 시 주의사항, 꿀팁 방출 한 달 정도 빅데이터분석기사 실기를 준비한 것 같습니다. 실기 준비를 해보니, 문제가 어렵지는 않은데, 실수를 하는 부분이 있습니다. 시험 중에 실수할 수 있는 부분을 정리하고, 시험 전에 한번 숙지하면 좋을 것 같습니다. 메모장 사용 print() 문을 사용해서 출력한 데이터프레임, info(), describe() 등 시험 환경의 작업창에서 보기 힘들고, 모델의 성능 지표도 관리가 필요하므로 메모장을 활용하자. (시험 중 사용 가능) dir과 help 잘 사용하기 라이브러리나 함수명이 기억이 안나면 dir과 help를 사용해서 조회해보자 문제의 요구사항을 놓치지 말자 소수점 자리수, 제외해야 하는 값 등을 고려하지 않고 틀리는 경우가 많으니 조심하자. 검산을 하자 오류가 나면 차라리 다행이다. 작업형.. 2023. 6. 23.
[빅데이터분석기사 실기][작업형3]카이제곱 검정(적합도 검정, 독립성 검정)+피셔의 정확검정 카이 제곱 검정은 두 범주형 변수 사이에 유의미한 연관성이 있는지 확인하는 데 사용되는 통계 검정입니다. 분할표에서 관찰된 빈도를 변수가 독립적인 경우 예상되는 빈도와 비교합니다. 검정은 독립 가설을 평가할 수 있는 카이제곱 통계량과 p-값을 계산합니다. 다음은 Python에서 카이제곱 검정을 설명하는 예입니다. 1. 카이제곱 적합도 검정(일원 카이제곱검정) 카이제곱 적합도 검정은 관찰된 데이터가 특정 이론적 분포에 맞는지 확인하는 데 사용됩니다. 관찰된 빈도를 가설 분포를 기반으로 하는 예상 빈도와 비교합니다. 관측 빈도가 예상 빈도에서 크게 벗어나면 데이터가 가정된 분포를 따르지 않는다는 것을 나타냅니다. 아래는 알려진 혈액형 분포와 실제 관측치 간의 적합도를 검정하는 예제입니다. H0(귀무가설): .. 2023. 6. 22.
[빅데이터분석기사 실기][작업형1] 모듈, 함수 이름과 사용법이 생각나지 않을 때, dir, help, __all__ 빅데이터분석기사 등 실기 시험을 볼 때, 모듈이나, 메서드, 속성 등이 생각나지 않을 때가 있습니다. 자주 사용하지만, 복사 & 붙여 넣기 해서 사용했던 코드들은 이런 경우가 많지요. 평상시에는 구글링을 하면 되는데, 시험 보러 가서는 구글링이 안되니, 확인할 방법이 필요합니다. 그럴 때 유용하게 사용할 수 있는 함수가 dir, help입니다. 그리고 __all__ 속성에 대해서도 확인해 보겠습니다. 1. dir dir 함수는 모듈 또는 객체 내에서 사용할 수 있는 속성, 메서드 및 하위 모듈의 이름을 나타내는 문자열 목록을 반환합니다. 모듈이나 객체의 내용을 탐색하는 데 유용하게 사용할 수 있습니다. dir을 사용하기 위해서는 (1) 확인하고자 하는 모듈을 import 하고 (2) dir()에 담아서 .. 2023. 6. 18.
[빅데이터분석기사 실기][작업형1] 슬라이싱 슬라이싱은 목록, 문자열 또는 pandas DataFrame과 같은 시퀀스에서 데이터의 특정 부분 또는 하위 집합을 추출하는 방법입니다. 이를 통해 시퀀스 내의 위치에 따라 다양한 요소에 액세스 할 수 있습니다. 다음은 다양한 슬라이싱의 예입니다. 리스트를 사용했지만, ndarray도 동일하게 슬라이싱이 가능합니다. 1. 기본 슬라이싱슬라이싱은 '[start:end]' 표기법을 사용하여 수행됩니다. 여기서 'start'는 포함할 첫 번째 요소의 인덱스이고 'end'는 제외할 첫 번째 요소의 인덱스입니다. 그 결과 start는 포함되지만, end는 포함되지 않습니다. 예시를 보겠습니다.my_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] sliced_list = my_list[2:6].. 2023. 6. 17.
[빅데이터분석기사 실기][작업형1] imputer로 결측치 처리하기 결측치를 처리하기 위해 그동안은 fillna()를 주로 사용했습니다. 그런데, fillna()로 하나씩 처리하지 않고 sklearn에서 제공하는 imputer를 사용하는 방법이 있어 공유합니다. Imputer에도 여러 가지가 있지만, 여기서는 가장 간단한 SimpleImputer만 확인합니다. SimpleImputer는 결측치를 지정된 전략에 따라 대체하는 데 사용됩니다. 가장 일반적인 전략은 평균값(mean) 또는 최빈값(most_frequent)을 사용하는 것입니다. 아래는 SimpleImputer를 사용하여 수치형 변수의 결측치를 평균값으로, 범주형 변수의 결측치를 최빈값으로 대체하는 예제입니다. import pandas as pd from sklearn.impute import SimpleImpu.. 2023. 6. 16.
[빅데이터분석기사 실기][작업형1] pd.melt(), pd.pivot_table()로 데이터 프레임 변형하기 pd.melt 및 pd.pivot_table은 Python에서 데이터 변형을 위한 pandas 라이브러리의 함수입니다. 용도와 사용법에 비슷한 부분이 있어서 함께 정리합니다. 1. pd.melt 이 함수는 DataFrame을 와이드 포맷에서 롱 포맷으로 변환하거나 재구성하는 데 사용됩니다. DataFrame을 unpivot 하여 열을 행으로 변환합니다. 이 함수는 DataFrame을 입력으로 사용하고 식별자 변수(id_vars)로 남아 있어야 하는 열을 지정하고 나머지는 단일 열로 통합됩니다. 예: 서로 다른 지역의 서로 다른 제품에 대한 판매 데이터를 나타내는 DataFrame이 있다고 가정해 보겠습니다. import pandas as pd data = { 'Product': ['A', 'B', 'C'.. 2023. 6. 16.
Inplace=True 옵션을 썼는데, 데이터 변경이 안되는 경우 drop, fillna, replace 등 python pandas 함수를 쓰면서 Inplace=True 옵션을 자주 사용하였는데, 이 옵션이 동작하지 않는 경우가 있어서 공유합니다. 우선 아래 예제를 보겠습니다. 1. Inplace=True 옵션이 동작하지 않는 경우 이 예제는 Age와 Income 열의 값이 0인 경우 각 컬럼의 평균값으로 대체하는 예제입니다. import pandas as pd # 샘플 데이터프레임 생성 data = {'Name': ['John', 'Alice', 'Bob', 'Emily'], 'Age': [25, 30, 35, 0], 'Income':[100,200,300,0], 'City': ['New York', 'Paris', 'London', 'Sydney'], 'Gende.. 2023. 6. 11.
728x90