반응형
심화 프로젝트 관련
1) 결측치 대치 관련
근로기간과 직접적인 연관이 있을 거 같은
연간 소득, 부채 대비 소득 비율, 주택 소유 상태 등을 통해
단순 대치를 시행했다.
2) 중위 등급 판별 관련
대출 등급 분류 모델의 성능은 어느 정도 나왔다.
하지만 팀원들이 제시했던
중위 등급 분류가 약하다는 단점이 있었다.
하지만 현실에서
가장 많은 등급이 중위 등급일 것이기 때문에
그것만을 위한 파생변수를 굳이 만들 이유는 없을 듯 하다
3) 인코딩 관련
아래 이유로 인해 인코딩 방식을 변경하지는 않을 예정이다.
(1) shap value 사용이 필수적이지는 않다.
feature importance를 통해 각 컬럼의 중요도는 산출 가능하다.
각 컬럼이 등급을 산출할 때에 어떤 작용을 하는 지는 직관적으로 알 수 있기 때문에,
또한 shap value를 산출하는데 시간이 오래 걸리기 때문에(기기의 한계)
사용하지 않는 방향으로 가기로 했다.
(2) 컬럼의 특성
onehot인코딩으로 대출목적을 인코딩한 이유는
대출 목적 내에 우위가 없다고 간주했기 때문이다.
반응형
'TIL' 카테고리의 다른 글
내배캠 TIL 42일차 (0) | 2024.02.26 |
---|---|
내배캠 TIL 41일차 (0) | 2024.02.19 |
내배캠 TIL 39일차 (0) | 2024.02.14 |
내배캠 TIL 37일차 (0) | 2024.02.08 |
내배캠 TIL 36일차 (1) | 2024.02.07 |