본문 바로가기
728x90

우공이산254

[빅데이터분석기사 실기][작업형1] 모듈, 함수 이름과 사용법이 생각나지 않을 때, dir, help, __all__ 빅데이터분석기사 등 실기 시험을 볼 때, 모듈이나, 메서드, 속성 등이 생각나지 않을 때가 있습니다. 자주 사용하지만, 복사 & 붙여 넣기 해서 사용했던 코드들은 이런 경우가 많지요. 평상시에는 구글링을 하면 되는데, 시험 보러 가서는 구글링이 안되니, 확인할 방법이 필요합니다. 그럴 때 유용하게 사용할 수 있는 함수가 dir, help입니다. 그리고 __all__ 속성에 대해서도 확인해 보겠습니다. 1. dir dir 함수는 모듈 또는 객체 내에서 사용할 수 있는 속성, 메서드 및 하위 모듈의 이름을 나타내는 문자열 목록을 반환합니다. 모듈이나 객체의 내용을 탐색하는 데 유용하게 사용할 수 있습니다. dir을 사용하기 위해서는 (1) 확인하고자 하는 모듈을 import 하고 (2) dir()에 담아서 .. 2023. 6. 18.
[빅데이터분석기사 실기][작업형1] 슬라이싱 슬라이싱은 목록, 문자열 또는 pandas DataFrame과 같은 시퀀스에서 데이터의 특정 부분 또는 하위 집합을 추출하는 방법입니다. 이를 통해 시퀀스 내의 위치에 따라 다양한 요소에 액세스 할 수 있습니다. 다음은 다양한 슬라이싱의 예입니다. 리스트를 사용했지만, ndarray도 동일하게 슬라이싱이 가능합니다. 1. 기본 슬라이싱슬라이싱은 '[start:end]' 표기법을 사용하여 수행됩니다. 여기서 'start'는 포함할 첫 번째 요소의 인덱스이고 'end'는 제외할 첫 번째 요소의 인덱스입니다. 그 결과 start는 포함되지만, end는 포함되지 않습니다. 예시를 보겠습니다.my_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] sliced_list = my_list[2:6].. 2023. 6. 17.
[빅데이터분석기사 실기][작업형1] imputer로 결측치 처리하기 결측치를 처리하기 위해 그동안은 fillna()를 주로 사용했습니다. 그런데, fillna()로 하나씩 처리하지 않고 sklearn에서 제공하는 imputer를 사용하는 방법이 있어 공유합니다. Imputer에도 여러 가지가 있지만, 여기서는 가장 간단한 SimpleImputer만 확인합니다. SimpleImputer는 결측치를 지정된 전략에 따라 대체하는 데 사용됩니다. 가장 일반적인 전략은 평균값(mean) 또는 최빈값(most_frequent)을 사용하는 것입니다. 아래는 SimpleImputer를 사용하여 수치형 변수의 결측치를 평균값으로, 범주형 변수의 결측치를 최빈값으로 대체하는 예제입니다. import pandas as pd from sklearn.impute import SimpleImpu.. 2023. 6. 16.
[빅데이터분석기사 실기][작업형1] pd.melt(), pd.pivot_table()로 데이터 프레임 변형하기 pd.melt 및 pd.pivot_table은 Python에서 데이터 변형을 위한 pandas 라이브러리의 함수입니다. 용도와 사용법에 비슷한 부분이 있어서 함께 정리합니다. 1. pd.melt 이 함수는 DataFrame을 와이드 포맷에서 롱 포맷으로 변환하거나 재구성하는 데 사용됩니다. DataFrame을 unpivot 하여 열을 행으로 변환합니다. 이 함수는 DataFrame을 입력으로 사용하고 식별자 변수(id_vars)로 남아 있어야 하는 열을 지정하고 나머지는 단일 열로 통합됩니다. 예: 서로 다른 지역의 서로 다른 제품에 대한 판매 데이터를 나타내는 DataFrame이 있다고 가정해 보겠습니다. import pandas as pd data = { 'Product': ['A', 'B', 'C'.. 2023. 6. 16.
Inplace=True 옵션을 썼는데, 데이터 변경이 안되는 경우 drop, fillna, replace 등 python pandas 함수를 쓰면서 Inplace=True 옵션을 자주 사용하였는데, 이 옵션이 동작하지 않는 경우가 있어서 공유합니다. 우선 아래 예제를 보겠습니다. 1. Inplace=True 옵션이 동작하지 않는 경우 이 예제는 Age와 Income 열의 값이 0인 경우 각 컬럼의 평균값으로 대체하는 예제입니다. import pandas as pd # 샘플 데이터프레임 생성 data = {'Name': ['John', 'Alice', 'Bob', 'Emily'], 'Age': [25, 30, 35, 0], 'Income':[100,200,300,0], 'City': ['New York', 'Paris', 'London', 'Sydney'], 'Gende.. 2023. 6. 11.
[빅데이터분석기사 실기][작업형1] Shift로 데이터 이동하기 shift 함수는 pandas 라이브러리에서 제공되는 함수로, 데이터 프레임의 열을 특정 방향으로 이동시키는 기능을 수행합니다. 이 함수를 사용하면 열의 값들이 한 칸씩 앞이나 뒤로 이동하게 됩니다. shift 함수는 다음과 같은 형식으로 사용됩니다: df['이동된 열'] = df['기존 열'].shift(periods=n) 여기서 periods=n은 이동할 칸 수를 지정하는 매개변수입니다. n이 양수인 경우 열의 값을 뒤로 이동시키고, 음수인 경우 앞으로 이동시킵니다. 이동된 결과는 새로운 열로 추가되며, 이동되는 과정에서 가장 첫 번째 값은 결측치로 채워집니다. 아래 예시를 보겠습니다. import pandas as pd # Create a sample DataFrame data = {'A': [1,.. 2023. 6. 9.
Label Encoidng 시 ValueError: y contains previously unseen labels:가 발생할 때 Label Encoding 시 "ValueError: y contains previously unseen labels:"가 발생할 때가 있습니다. 학습데이터에 fit을 하고, 테스트데이터에 transform을 했을 때, 테스트데이터에 학습데이터에 없는 범주값이 존재할 때 발생합니다. 초보자 분들의 경우에는 학습데이터와 테스트데이터 모두 fit_transform을 하는 경우가 있기도 하고, 학습데이터와 테스트 데이터를 합쳐서 fit 하고, 학습데이터와 테스트 데이터를 transform 해주기도 하지만, 원칙적으로 학습데이터와 테스트 데이터는 독립적이어야 하므로 실무적으로 권장되는 방법은 아닙니다.(Data Leakage 문제가 생기며, 대회 등에서는 탈락 사유가 됩니다.) LabelEncoder.class.. 2023. 6. 8.
철인왕후 - 오랜만에 많이 웃었다 넷플릭스 추천 콘텐츠에 몇 달째 떠있어서 결국 보게 되었습니다. 사랑의 불시착에서 인상깊은 연기를 보여줬던 김정현과, 만능짤로 유명한 신혜선이 출연하는 드라마인데, 두 주연의 연기가 다채롭고, 조연들의 감초 연기가 너무 웃겨서 매일 저녁 즐겁게 보았습니다. 특히 김소용의 역할을 맡은 신혜선의 연기가 인상적이었는데요. - 김소용에 빙의된 남자 장봉환 - 김소용과 동화되면서 정체성에 혼란을 느끼는 장봉환 - 김소용 부캐 이생망 - 회상신에 나오는 빙의 전 김소용 - 빙의가 풀렸지만, 성격이 변한 김소용 다섯 가지 역할을 하는 신혜선에 감탄했습니다. 특히 마지막에 총 맞고 빙의 풀리면서 원래 김소용으로 돌아오는 신에서 소름이 쫙 올라왔습니다. (감탄인지, 닭살인지.. 구별이 잘 안 되네요.) 20화 길게 가는.. 2023. 6. 7.
[빅데이터분석기사 실기][작업형1] iloc와 loc를 이용한 데이터프레임 접근 iloc와 loc는 데이터프레임을 다루는 데 있어 기본이 되는 방법입니다. iloc와 loc에 대해 알기 전에 슬라이싱을 알아야 하니, 혹시 슬라이싱에 익숙하지 않으면 아래 글을 먼저 봐주세요. 2023.06.17 - [데이터분석과 AI/빅데이터 분석기사] - [빅데이터분석기사 실기][작업형1] 슬라이싱 1. loc와 iloc의 차이 - 행 loc는 index에 직접 접근하며, iloc는 index의 순서를 따릅니다. import pandas as pd # 데이터 생성 data = { 'Car': ['Corolla', 'Civic', 'Accord', 'Sonata', 'Optima'], 'Manufacturer': ['Toyota', 'Honda', 'Honda', 'Hyundai', 'Kia'], '.. 2023. 6. 6.
728x90