본문 바로가기
반응형

분류 전체보기66

내배캠 TIL 38일차 심화 프로젝트 관련 1) 결측치 대치 2) 이상치 제거 4분위수를 사용한 방법은 유실 데이터가 너무 많아 기각. EDS를 사용한 방법 채택. def remove_outliers(train_df, col, threshold=3): mean = np.mean(train_df[col]) std_dev = np.std(train_df[col]) lower_bound = mean - threshold * std_dev upper_bound = mean + threshold * std_dev train_df= train_df[(train_df[col] >= lower_bound) & (train_df[col] 2024. 2. 13.
내배캠 WIL 8주차 지난 1주일을 돌아보며... Facts 1. 머신러닝 심화 강의 수강 - 심화 프로젝트 기간 도입으로 인해 강의를 많이 듣지 못했다.. - 심화 프로젝트에 도입할 수 있을 여러가지 강력한 모델이 많다 2. 머신 러닝 개인 과제 해설 - 아직 결과가 나오지 않았다. - 하지만 과제에서 도입된 오버샘플링 등을 프로젝트에 적용 가능하다. Feelings 1. 탐색적 데이터 분석은 어려운 것 : 심화프로젝트 튜터님의 피드백이 탐색적 데이터 분석을 더욱 많이 기존에 해오던 수준보다 더욱 심도있게 하라는 것이었다. 2. 전처리에 왕도는 없다 : 이것 저것 해보고 기존 데이터의 추세를 망가뜨리지 않는 선에서 또한 데이터 유실이 많지 않은 수준을 잘 유지하는 것이 어렵다 Findings 1. import warning.. 2024. 2. 8.
내배캠 TIL 37일차 심화 프로젝트 1) 결측치 대치 근로기간이 "Unknown"인 것들을 어떻게 대치해야할까. 단순대치를 위해 다른 근로기간의 변수 분포와 비교해보았다. 아래 코드는 근로기간이 "Unknown"인 row의 category_feature의 분포가 어떤 근로기간과 비슷한지 알아본 코드다. sse가 가장 작은 년도로 대치하려는 목적으로 이 코드를 작성했다. 결과는 5로 낙점. regression 이랑 뭐가 다르냐고 할 수 있겠는데, 회귀결과가 5가 많이 나올 수도 있겠지만 5가 아닌 다른 값이 나올 수도 있기 때문에 다르긴 하다. 회귀를 하는 방식 또한 해볼 예정이다 df = pd.read_csv('train.csv') df = df.drop(index=df[df['주택소유상태'] == 'ANY'].index) .. 2024. 2. 8.
내배캠 TIL 36일차 심화 프로젝트 기초모듈 데이터를 불러오기 위한 기초 모듈과 경고 문구를 없애기 위한 코드 그래프에서의 글꼴 깨짐을 방지하기 위한 코드 등을 도입했다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import sidetable import warnings warnings.filterwarnings(action='ignore') plt.rcParams['font.family'] = 'Malgun Gothic' plt.rcParams['axes.unicode_minus'] = False​ 전처리 결측치 : EDA를 통해서 조금 더 적합한 결측치(Unknown) 처리 방법에 대해 고민해볼 것.. 2024. 2. 7.
반응형