반응형 전체 글66 내배캠 TIL 35일차 심화 프로젝트 1) 주제 우리 팀의 주제는 고객 대출 등급 분류다. EDA를 통해 특정 변수에 가중치를 둘지 파생변수를 만들지 등등 생각해볼 것이 많은 주제인듯 하다. 금융기관에서도 자사만의 신용등급 평가 모델이 있을테니 그런 측면에서도 좋다. 2) EDA 데이터 수 확인. : 96294 row 방금 발견했는데 row를 그대로 한글자판으로 치면 개s가 된다 복수형 ## 데이터 갯수 df = pd.read_csv('open/train.csv') len(df) 결측치 확인. : 결측치는 근로기간 : Unknown, 그리고 표기 양식이 조금씩 다르다 DACON이 약을 풀었다.. 주택상태 : ANY for col in df.columns: print(col, df[col].unique()) 대출 등급별 특징.. 2024. 2. 6. 내배캠 TIL 34일차 머신러닝 개인 과제 선택과제 1) balance 음수값 보정 2) np.log() 대신 np.log1p 사용 이유 3) 더 나은 인코딩 4) 결측치 처리 3, 4를 한꺼번에 코드에서 다뤘다. (1) 결측치 처리. ## 결측치 확인 df = pd.read_csv('./bank_marketing.csv') df.isnull().sum() ## job, eduaction, contact 까지는 대치할만한데 ## poutcome은 버리는 게 좋을 거 같다 ## 결측치 처리를 위한 모듈 불러오기 from sklearn.impute import SimpleImputer ## 대치는 최빈값으로 imputer = SimpleImputer(missing_values=np.nan, strategy='most_frequen.. 2024. 2. 5. 내배캠 WIL 7주차 지난 1주일을 돌아보며... Facts 1. 머신러닝 강의 수강 - sklearn을 이용한 다양한 회귀분석. - sklearn을 통한 다양한 형태의 데이터 전처리. 2. 머신 러닝 개인 과제 수행 - 과제를 통한 머신러닝 강의 및 Git 사용 실습. Feelings 1. 탐색적 데이터 분석은 어려운 것 : 과제를 맨땅에서 시작하려 했으면 굉장히 어려웠을 것. 2. 전처리에 왕도는 없다 : 오직 노가다만 있을 뿐. 여러 사람이 의견을 모으는 것도 합리적인 방법을 이끌어내기에 좋은 거 같다. Findings 1. sklearn.impute 2. sklearn.model_selection.GridSearchCV() 3. from imblearn.over_sampling import SMOTE sm = SMOT.. 2024. 2. 2. 내배캠 TIL 33일차 머신러닝 개인 과제 1) 라이브러리를 이용해 데이터 불러오기 데이터 출처와 Github 출처가 주어졌다. 데이터 출처는 csv 형태로 바로 다운 받을 수 있는 것이고, Github에서는 모듈을 제시한다. 채점 환경이 어떨지 모르기 때문에 모듈을 사용하여 저장하기로 하였다. '''문제 시작''' !pip install -U ucimlrepo from ucimlrepo import list_available_datasets, fetch_ucirepo # list_available_datasets()을 통해 필요한 데이터셋의 id 확인 bank_marketing = fetch_ucirepo(id=222) df = bank_marketing['data']['original'] df.to_csv('bank_mar.. 2024. 2. 2. 이전 1 ··· 4 5 6 7 8 9 10 ··· 17 다음 반응형