본문 바로가기
반응형

python48

내배캠 TIL 42일차 돌아온 탕자 1. ADsP 지난 주말에 ADsP 시험을 봤습니다. 시험에 시간을 많이 투자하여 태블로 강의와 블로그 작성을 소홀히 했습니다. 결과는 1달 후에나 나오는데 여러 카페 등을 봤을 때 난이도는 여려운 수준이었던 거 같습니다. 좋은 결과가 있기를. 2. 태블로 강의 태블로 강의 및 개인과제가 주어졌습니다. 강의 초반을 들으면서 느낀 점은 굉장히 강력한 BI 툴이라는 점입니다. 여러 형태의 데이터와의 연동이 용이하고 별로 만지지 않아도 기본 탬플릿 또한 예쁜 거 같습니다. 유료만 아니었다면. 1) 워크시트 ⊂ 대시보드 ⊂ 스토리. 2) 사용할 컬럼만 남기고 데이터원본 시트에서 나머지 컬럼을 숨길 것. 워크시트에서는 편집 불가능. 3) 행, 열 설정하는 것은 seaborn과 유사하다. 가령 본인이 .. 2024. 2. 26.
내배캠 TIL 40일차 심화 프로젝트 관련 1) 결측치 대치 관련 근로기간과 직접적인 연관이 있을 거 같은 연간 소득, 부채 대비 소득 비율, 주택 소유 상태 등을 통해 단순 대치를 시행했다. 2) 중위 등급 판별 관련 대출 등급 분류 모델의 성능은 어느 정도 나왔다. 하지만 팀원들이 제시했던 중위 등급 분류가 약하다는 단점이 있었다. 하지만 현실에서 가장 많은 등급이 중위 등급일 것이기 때문에 그것만을 위한 파생변수를 굳이 만들 이유는 없을 듯 하다 3) 인코딩 관련 아래 이유로 인해 인코딩 방식을 변경하지는 않을 예정이다. (1) shap value 사용이 필수적이지는 않다. feature importance를 통해 각 컬럼의 중요도는 산출 가능하다. 각 컬럼이 등급을 산출할 때에 어떤 작용을 하는 지는 직관적으로 알 수 .. 2024. 2. 15.
내배캠 TIL 39일차 튜터님 피드백 1) 결측치 대치 관련 명목형 변수들이 이루는 비율을 통해 가장 유사한 것으로 대한 접근법 자체는 좋다. 하지만 사용한 명목형 변수들이 대치할 컬럼인 '대출기간'과 직접적인 연관이 없다. 고로 대치할 때, 명목형 변수 외에 몇몇 수치형 변수들 또한 대치의 근거로써 사용하는 것이 좋을 거 같다. 2) 파생 변수 관련 파생 변수를 추가한 논리는 좋다. 조원들의 니즈를 위한 중위 등급 판별을 위한 파생변수를 생각하면 좋을 거 같다. 3) 인코딩 관련 중위 등급을 잘 판별하지 못하는 것이 unique 값이 많은 대출목적을 원핫 인코딩한 것이 원인일 수 있다는 의견을 주셨다. 또 팀원분이 대출 목적을 몇가지 기준에 따라 통합하여 차원을 줄이는 의견도 주셨다. 둘 다 좋은 방법 같다 4) 안정적인 모.. 2024. 2. 14.
내배캠 TIL 38일차 심화 프로젝트 관련 1) 결측치 대치 2) 이상치 제거 4분위수를 사용한 방법은 유실 데이터가 너무 많아 기각. EDS를 사용한 방법 채택. def remove_outliers(train_df, col, threshold=3): mean = np.mean(train_df[col]) std_dev = np.std(train_df[col]) lower_bound = mean - threshold * std_dev upper_bound = mean + threshold * std_dev train_df= train_df[(train_df[col] >= lower_bound) & (train_df[col] 2024. 2. 13.
반응형