본문 바로가기
TIL

내배캠 TIL 35일차

by ColorConeHead 2024. 2. 6.
반응형

심화 프로젝트

1) 주제


우리 팀의 주제는
고객 대출 등급 분류다.

EDA를 통해 특정 변수에 가중치를 둘지
파생변수를 만들지 등등

생각해볼 것이 많은 주제인듯 하다.

금융기관에서도 자사만의
신용등급 평가 모델이 있을테니
그런 측면에서도 좋다.

 

2) EDA


데이터 수 확인.
: 96294 row 방금 발견했는데 row를 그대로 한글자판으로 치면 개s가 된다 복수형
## 데이터 갯수

df = pd.read_csv('open/train.csv')
len(df)​

 


결측치 확인.
: 결측치는
근로기간 : Unknown, 그리고 표기 양식이 조금씩 다르다 DACON이 약을 풀었다..
주택상태 : ANY
for col in df.columns:
    print(col, df[col].unique())​


대출 등급별 특징 확인.
: 아래 각주에서 제시한 특징이
각 등급에서 가장 큰 비율을 차지했고,
등급이 낮아질 수록 그 비율이 줄어들었다
category_col = ['대출기간', '근로기간', '주택소유상태', '대출목적', '최근_2년간_연체_횟수']

for col in category_col:
    print(col)
    display(df[df['대출등급'] == "A"][col].value_counts() / df[df['대출등급'] == "A"][col].value_counts().sum())
    print('----------------------------------')

## 대출기간 : 단기
## 근로기간 : 장기
## 주택상태 : 전세
## 대출목적 : 부채통합​


마지막에 확인한 것으로,
4가지 기준을 동시에 부합하면
높은 신용등급으로 귀결시키는
파생변수를 만들 수 있을 거 같다.
반응형

'TIL' 카테고리의 다른 글

내배캠 TIL 37일차  (0) 2024.02.08
내배캠 TIL 36일차  (1) 2024.02.07
내배캠 TIL 34일차  (1) 2024.02.05
내배캠 TIL 33일차  (0) 2024.02.02
내배캠 TIL 32일차  (0) 2024.02.01