본문 바로가기
반응형

preprocessing2

내배캠 TIL 39일차 튜터님 피드백 1) 결측치 대치 관련 명목형 변수들이 이루는 비율을 통해 가장 유사한 것으로 대한 접근법 자체는 좋다. 하지만 사용한 명목형 변수들이 대치할 컬럼인 '대출기간'과 직접적인 연관이 없다. 고로 대치할 때, 명목형 변수 외에 몇몇 수치형 변수들 또한 대치의 근거로써 사용하는 것이 좋을 거 같다. 2) 파생 변수 관련 파생 변수를 추가한 논리는 좋다. 조원들의 니즈를 위한 중위 등급 판별을 위한 파생변수를 생각하면 좋을 거 같다. 3) 인코딩 관련 중위 등급을 잘 판별하지 못하는 것이 unique 값이 많은 대출목적을 원핫 인코딩한 것이 원인일 수 있다는 의견을 주셨다. 또 팀원분이 대출 목적을 몇가지 기준에 따라 통합하여 차원을 줄이는 의견도 주셨다. 둘 다 좋은 방법 같다 4) 안정적인 모.. 2024. 2. 14.
내배캠 TIL 30일차 1. 머신러닝 강의 1) 데이터 수집 (1) 회사에 있는 거. (2) 다운받기. - csv - API 이용 : pd.read_json 등. - 크롤링 : requests, BeautifulSoup(후자 방법은 별로 안 좋아함) . 2) 탐색적 데이터 분석 (EDA) (1) 시각화를 통한 EDA - matplotlib, seaborn. (2) 비지도학습을 통한 EDA : 지도학습할 건덕지를 찾기 위해 비지도학습을 하기도 함. 3) 데이터 전처리 EDA를 통해 전처리 방법을 고안할 것. (1) 범주형 데이터 : 최빈값 대치 - drona(), fillna() - sklearn.impute.SimpleImputer : 통계량으로 대치. - sklearn.impute.IterativeImputer : 다변량대치.. 2024. 1. 30.
반응형