'실기' 태그의 글 목록 (2 Page)

본문 바로가기

실기28

[빅데이터분석기사 실기][작업형1] 슬라이싱 슬라이싱은 목록, 문자열 또는 pandas DataFrame과 같은 시퀀스에서 데이터의 특정 부분 또는 하위 집합을 추출하는 방법입니다. 이를 통해 시퀀스 내의 위치에 따라 다양한 요소에 액세스 할 수 있습니다. 다음은 다양한 슬라이싱의 예입니다. 리스트를 사용했지만, ndarray도 동일하게 슬라이싱이 가능합니다. 1. 기본 슬라이싱슬라이싱은 '[start:end]' 표기법을 사용하여 수행됩니다. 여기서 'start'는 포함할 첫 번째 요소의 인덱스이고 'end'는 제외할 첫 번째 요소의 인덱스입니다. 그 결과 start는 포함되지만, end는 포함되지 않습니다. 예시를 보겠습니다.my_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] sliced_list = my_list[2:6].. 2023. 6. 17.

[빅데이터분석기사 실기][작업형1] imputer로 결측치 처리하기 결측치를 처리하기 위해 그동안은 fillna()를 주로 사용했습니다. 그런데, fillna()로 하나씩 처리하지 않고 sklearn에서 제공하는 imputer를 사용하는 방법이 있어 공유합니다. Imputer에도 여러 가지가 있지만, 여기서는 가장 간단한 SimpleImputer만 확인합니다. SimpleImputer는 결측치를 지정된 전략에 따라 대체하는 데 사용됩니다. 가장 일반적인 전략은 평균값(mean) 또는 최빈값(most_frequent)을 사용하는 것입니다. 아래는 SimpleImputer를 사용하여 수치형 변수의 결측치를 평균값으로, 범주형 변수의 결측치를 최빈값으로 대체하는 예제입니다. import pandas as pd from sklearn.impute import SimpleImpu.. 2023. 6. 16.

[빅데이터분석기사 실기][작업형1] pd.melt(), pd.pivot_table()로 데이터 프레임 변형하기 pd.melt 및 pd.pivot_table은 Python에서 데이터 변형을 위한 pandas 라이브러리의 함수입니다. 용도와 사용법에 비슷한 부분이 있어서 함께 정리합니다. 1. pd.melt 이 함수는 DataFrame을 와이드 포맷에서 롱 포맷으로 변환하거나 재구성하는 데 사용됩니다. DataFrame을 unpivot 하여 열을 행으로 변환합니다. 이 함수는 DataFrame을 입력으로 사용하고 식별자 변수(id_vars)로 남아 있어야 하는 열을 지정하고 나머지는 단일 열로 통합됩니다. 예: 서로 다른 지역의 서로 다른 제품에 대한 판매 데이터를 나타내는 DataFrame이 있다고 가정해 보겠습니다. import pandas as pd data = { 'Product': ['A', 'B', 'C'.. 2023. 6. 16.

[빅데이터분석기사 실기][작업형1] Shift로 데이터 이동하기 shift 함수는 pandas 라이브러리에서 제공되는 함수로, 데이터 프레임의 열을 특정 방향으로 이동시키는 기능을 수행합니다. 이 함수를 사용하면 열의 값들이 한 칸씩 앞이나 뒤로 이동하게 됩니다. shift 함수는 다음과 같은 형식으로 사용됩니다: df['이동된 열'] = df['기존 열'].shift(periods=n) 여기서 periods=n은 이동할 칸 수를 지정하는 매개변수입니다. n이 양수인 경우 열의 값을 뒤로 이동시키고, 음수인 경우 앞으로 이동시킵니다. 이동된 결과는 새로운 열로 추가되며, 이동되는 과정에서 가장 첫 번째 값은 결측치로 채워집니다. 아래 예시를 보겠습니다. import pandas as pd # Create a sample DataFrame data = {'A': [1,.. 2023. 6. 9.

[빅데이터분석기사 실기][작업형1] iloc와 loc를 이용한 데이터프레임 접근 iloc와 loc는 데이터프레임을 다루는 데 있어 기본이 되는 방법입니다. iloc와 loc에 대해 알기 전에 슬라이싱을 알아야 하니, 혹시 슬라이싱에 익숙하지 않으면 아래 글을 먼저 봐주세요. 2023.06.17 - [데이터분석과 AI/빅데이터 분석기사] - [빅데이터분석기사 실기][작업형1] 슬라이싱 1. loc와 iloc의 차이 - 행 loc는 index에 직접 접근하며, iloc는 index의 순서를 따릅니다. import pandas as pd # 데이터 생성 data = { 'Car': ['Corolla', 'Civic', 'Accord', 'Sonata', 'Optima'], 'Manufacturer': ['Toyota', 'Honda', 'Honda', 'Hyundai', 'Kia'], '.. 2023. 6. 6.

[빅데이터분석기사 실기][작업형1] 그룹화와 정렬 + 멀티인덱싱 groupby 함수는 데이터를 집계하는 함수입니다. 비슷하게 pivot_table을 사용할 수도 있습니다. sort_values는 DataFrame 또는 Series를 정렬하는 함수입니다. DataFrame을 정렬할 때는 by 파라미터에 정렬기준이 되는 변수명을 입력하고, Series를 정렬할 때는 변수명을 입력하지 않습니다. ascending=True가 기본값으로 오름차순이고, ascending=False는 내림차순입니다. 1. Code: DataFrame 정렬 import pandas as pd # 데이터 생성 data = { 'Car': ['Corolla', 'Civic', 'Accord', 'Sonata', 'Optima'], 'Manufacturer': ['Toyota', 'Honda', 'Ho.. 2023. 6. 6.

[빅데이터분석기사 실기][작업형1] 상관관계 구하기 상관계수는 두 변수 간의 선형 관계의 강도와 방향을 측정하는 통계량입니다. 상관계수는 -1에서 1 사이의 값을 가지며, 값의 절대값이 클수록 강한 선형 관계를 나타냅니다. 상관계수가 1에 가까울수록 양의 선형 관계를, -1에 가까울수록 음의 선형 관계를 나타냅니다. 0에 가까울수록 선형 관계가 약하거나 없음을 의미합니다. 아래 코드에서 상관관계가 높은 변수를 찾을 때는 단순히 상관계수의 크고 작음이 아니라, 상관계수의 절대값을 기준으로 강한 상관관계를 가지는지 판단해야 합니다. import pandas as pd from sklearn.datasets import load_boston # Boston House Prices 데이터셋 로드 data = load_boston() df = pd.DataFram.. 2023. 5. 28.

[빅데이터분석기사 실기][작업형1] 누적합 계산 및 결측치 채우기(cumsum, bfill) 누적합(Cumulative Sum)은 데이터의 원소들을 순차적으로 더해가며 누적된 합을 계산하는 연산입니다. 이전까지의 모든 데이터 값을 현재 데이터 값과 함께 더하여 누적된 결과를 생성합니다. 누적합은 데이터의 추이와 누적적인 변화를 파악하는 데 유용하며, 데이터의 누적적인 변화를 시각화하거나 특정 시점까지의 누적된 값을 계산하는 데 사용될 수 있습니다. 누적합은 다양한 분야에서 사용됩니다. 다음과 같이 몇 가지 예시가 있습니다. 금융 분야: 주식 가격, 지수 등의 시계열 데이터에서 누적합을 계산하여 총 수익률, 누적 수익 등을 파악할 수 있습니다. 판매 분야: 매출 데이터에서 일별, 월별, 연도별 누적 매출을 계산하여 총 매출액 추이를 확인할 수 있습니다. 생산 분야: 생산량이나 생산 비용 데이터에서.. 2023. 5. 27.

[빅데이터분석기사 실기][작업형1] 값을 대체하기 (replace) 이번에는 pandas의 replace 함수를 이용하여 값을 대체해 보겠습니다. 딕셔너리를 이용해서 값을 여러개 대체할 수도 있고, 단일 값을 변경하는 경우에는 변경전, 후 값만 입력하여 변경도 가능합니다. import pandas as pd # 예제 데이터프레임 생성 data = {'A': [1, 2, 3, 4, 5], 'B': ['apple', 'banana', 'apple', 'cherry', 'banana']} df = pd.DataFrame(data) # 'B' 컬럼의 값을 변경하기 전 출력 print("Original DataFrame:") print(df) # 'B' 컬럼의 값을 변경하여 새로운 데이터프레임 생성 df_replaced = df.replace({'apple': 'orange', .. 2023. 5. 26.

이전 1 2 3 4 다음

티스토리툴바