반응형 분류 전체보기66 내배캠 TIL 42일차 돌아온 탕자 1. ADsP 지난 주말에 ADsP 시험을 봤습니다. 시험에 시간을 많이 투자하여 태블로 강의와 블로그 작성을 소홀히 했습니다. 결과는 1달 후에나 나오는데 여러 카페 등을 봤을 때 난이도는 여려운 수준이었던 거 같습니다. 좋은 결과가 있기를. 2. 태블로 강의 태블로 강의 및 개인과제가 주어졌습니다. 강의 초반을 들으면서 느낀 점은 굉장히 강력한 BI 툴이라는 점입니다. 여러 형태의 데이터와의 연동이 용이하고 별로 만지지 않아도 기본 탬플릿 또한 예쁜 거 같습니다. 유료만 아니었다면. 1) 워크시트 ⊂ 대시보드 ⊂ 스토리. 2) 사용할 컬럼만 남기고 데이터원본 시트에서 나머지 컬럼을 숨길 것. 워크시트에서는 편집 불가능. 3) 행, 열 설정하는 것은 seaborn과 유사하다. 가령 본인이 .. 2024. 2. 26. 내배캠 TIL 41일차 심화 프로젝트 관련 피드백 1. 가설을 여러개로 만들고 그에 따른 파생변수를 만들어 검정에 활용한 점. 2. 모델링 전후로 개선된 사항을 자세히 제시한 점. 특정 클래스를 분류하기 위한 노력이 보였음. 3. 통계적인 한계점을 제시한 점. 4. 가설 검정 시, 통계적으로 유의미한지도 중요하지만 직관적으로 시사하는 바 또한 중요하다. 5. 결측치와 이상치 제거의 방법 선택의 근거가 아쉽다 제거 전후를 비교하여 근거로 사용했으면 좋았을 듯 6. 모델 선택의 근거를 성능이 아닌 모델의 특성으로 하는 것이 좋다 우리가 가진 데이터의 특성으로 보아, 해당 모델이 가장 적절했다 등. 다행히 긍정적인 피드백이 많이 나와서 다행이었다. 주말까지도 고생한 팀원분들 다들 고생 많으셨습니다. 2024. 2. 19. 내배캠 TIL 40일차 심화 프로젝트 관련 1) 결측치 대치 관련 근로기간과 직접적인 연관이 있을 거 같은 연간 소득, 부채 대비 소득 비율, 주택 소유 상태 등을 통해 단순 대치를 시행했다. 2) 중위 등급 판별 관련 대출 등급 분류 모델의 성능은 어느 정도 나왔다. 하지만 팀원들이 제시했던 중위 등급 분류가 약하다는 단점이 있었다. 하지만 현실에서 가장 많은 등급이 중위 등급일 것이기 때문에 그것만을 위한 파생변수를 굳이 만들 이유는 없을 듯 하다 3) 인코딩 관련 아래 이유로 인해 인코딩 방식을 변경하지는 않을 예정이다. (1) shap value 사용이 필수적이지는 않다. feature importance를 통해 각 컬럼의 중요도는 산출 가능하다. 각 컬럼이 등급을 산출할 때에 어떤 작용을 하는 지는 직관적으로 알 수 .. 2024. 2. 15. 내배캠 TIL 39일차 튜터님 피드백 1) 결측치 대치 관련 명목형 변수들이 이루는 비율을 통해 가장 유사한 것으로 대한 접근법 자체는 좋다. 하지만 사용한 명목형 변수들이 대치할 컬럼인 '대출기간'과 직접적인 연관이 없다. 고로 대치할 때, 명목형 변수 외에 몇몇 수치형 변수들 또한 대치의 근거로써 사용하는 것이 좋을 거 같다. 2) 파생 변수 관련 파생 변수를 추가한 논리는 좋다. 조원들의 니즈를 위한 중위 등급 판별을 위한 파생변수를 생각하면 좋을 거 같다. 3) 인코딩 관련 중위 등급을 잘 판별하지 못하는 것이 unique 값이 많은 대출목적을 원핫 인코딩한 것이 원인일 수 있다는 의견을 주셨다. 또 팀원분이 대출 목적을 몇가지 기준에 따라 통합하여 차원을 줄이는 의견도 주셨다. 둘 다 좋은 방법 같다 4) 안정적인 모.. 2024. 2. 14. 이전 1 2 3 4 5 6 7 8 ··· 17 다음 반응형