본문 바로가기
반응형

TIL54

내배캠 TIL 39일차 튜터님 피드백 1) 결측치 대치 관련 명목형 변수들이 이루는 비율을 통해 가장 유사한 것으로 대한 접근법 자체는 좋다. 하지만 사용한 명목형 변수들이 대치할 컬럼인 '대출기간'과 직접적인 연관이 없다. 고로 대치할 때, 명목형 변수 외에 몇몇 수치형 변수들 또한 대치의 근거로써 사용하는 것이 좋을 거 같다. 2) 파생 변수 관련 파생 변수를 추가한 논리는 좋다. 조원들의 니즈를 위한 중위 등급 판별을 위한 파생변수를 생각하면 좋을 거 같다. 3) 인코딩 관련 중위 등급을 잘 판별하지 못하는 것이 unique 값이 많은 대출목적을 원핫 인코딩한 것이 원인일 수 있다는 의견을 주셨다. 또 팀원분이 대출 목적을 몇가지 기준에 따라 통합하여 차원을 줄이는 의견도 주셨다. 둘 다 좋은 방법 같다 4) 안정적인 모.. 2024. 2. 14.
내배캠 TIL 37일차 심화 프로젝트 1) 결측치 대치 근로기간이 "Unknown"인 것들을 어떻게 대치해야할까. 단순대치를 위해 다른 근로기간의 변수 분포와 비교해보았다. 아래 코드는 근로기간이 "Unknown"인 row의 category_feature의 분포가 어떤 근로기간과 비슷한지 알아본 코드다. sse가 가장 작은 년도로 대치하려는 목적으로 이 코드를 작성했다. 결과는 5로 낙점. regression 이랑 뭐가 다르냐고 할 수 있겠는데, 회귀결과가 5가 많이 나올 수도 있겠지만 5가 아닌 다른 값이 나올 수도 있기 때문에 다르긴 하다. 회귀를 하는 방식 또한 해볼 예정이다 df = pd.read_csv('train.csv') df = df.drop(index=df[df['주택소유상태'] == 'ANY'].index) .. 2024. 2. 8.
내배캠 TIL 36일차 심화 프로젝트 기초모듈 데이터를 불러오기 위한 기초 모듈과 경고 문구를 없애기 위한 코드 그래프에서의 글꼴 깨짐을 방지하기 위한 코드 등을 도입했다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import sidetable import warnings warnings.filterwarnings(action='ignore') plt.rcParams['font.family'] = 'Malgun Gothic' plt.rcParams['axes.unicode_minus'] = False​ 전처리 결측치 : EDA를 통해서 조금 더 적합한 결측치(Unknown) 처리 방법에 대해 고민해볼 것.. 2024. 2. 7.
내배캠 TIL 35일차 심화 프로젝트 1) 주제 우리 팀의 주제는 고객 대출 등급 분류다. EDA를 통해 특정 변수에 가중치를 둘지 파생변수를 만들지 등등 생각해볼 것이 많은 주제인듯 하다. 금융기관에서도 자사만의 신용등급 평가 모델이 있을테니 그런 측면에서도 좋다. 2) EDA 데이터 수 확인. : 96294 row 방금 발견했는데 row를 그대로 한글자판으로 치면 개s가 된다 복수형 ## 데이터 갯수 df = pd.read_csv('open/train.csv') len(df)​ 결측치 확인. : 결측치는 근로기간 : Unknown, 그리고 표기 양식이 조금씩 다르다 DACON이 약을 풀었다.. 주택상태 : ANY for col in df.columns: print(col, df[col].unique())​ 대출 등급별 특징.. 2024. 2. 6.
반응형