반응형
심화 프로젝트
기초모듈
데이터를 불러오기 위한 기초 모듈과
경고 문구를 없애기 위한 코드
그래프에서의 글꼴 깨짐을 방지하기 위한 코드 등을 도입했다.
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import sidetable import warnings warnings.filterwarnings(action='ignore') plt.rcParams['font.family'] = 'Malgun Gothic' plt.rcParams['axes.unicode_minus'] = False
전처리
결측치
: EDA를 통해서 조금 더 적합한 결측치(Unknown) 처리 방법에 대해 고민해볼 것.
이상치
: 마찬가지. IQR로 했을 때 20%가 떨어지는 게 좀 그렇긴 함.
스캐일링
: 스캐일링 자체는 괜찮게 한 거 같다
인코딩
: 근로기간에만 apply를 적용한 것도 나쁘지 않은 듯 하다
모델링
어느 데이터에나 강건한 모델을 만드는 것을 추구할 것.
과적합을 방지하기 위해 Validation?이 필수.
인사이트
결국 분석을 통해 인사이트를 내야함.
단순히 모델 성능이 어떻다가 아니라.
shap value, feature importance 등을 통해
특정 col과의 관계를 설명한다든지.
반응형
'TIL' 카테고리의 다른 글
내배캠 TIL 39일차 (0) | 2024.02.14 |
---|---|
내배캠 TIL 37일차 (0) | 2024.02.08 |
내배캠 TIL 35일차 (0) | 2024.02.06 |
내배캠 TIL 34일차 (1) | 2024.02.05 |
내배캠 TIL 33일차 (0) | 2024.02.02 |