본문 바로가기
반응형

EDA17

내배캠 TIL 36일차 심화 프로젝트 기초모듈 데이터를 불러오기 위한 기초 모듈과 경고 문구를 없애기 위한 코드 그래프에서의 글꼴 깨짐을 방지하기 위한 코드 등을 도입했다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import sidetable import warnings warnings.filterwarnings(action='ignore') plt.rcParams['font.family'] = 'Malgun Gothic' plt.rcParams['axes.unicode_minus'] = False​ 전처리 결측치 : EDA를 통해서 조금 더 적합한 결측치(Unknown) 처리 방법에 대해 고민해볼 것.. 2024. 2. 7.
내배캠 TIL 35일차 심화 프로젝트 1) 주제 우리 팀의 주제는 고객 대출 등급 분류다. EDA를 통해 특정 변수에 가중치를 둘지 파생변수를 만들지 등등 생각해볼 것이 많은 주제인듯 하다. 금융기관에서도 자사만의 신용등급 평가 모델이 있을테니 그런 측면에서도 좋다. 2) EDA 데이터 수 확인. : 96294 row 방금 발견했는데 row를 그대로 한글자판으로 치면 개s가 된다 복수형 ## 데이터 갯수 df = pd.read_csv('open/train.csv') len(df)​ 결측치 확인. : 결측치는 근로기간 : Unknown, 그리고 표기 양식이 조금씩 다르다 DACON이 약을 풀었다.. 주택상태 : ANY for col in df.columns: print(col, df[col].unique())​ 대출 등급별 특징.. 2024. 2. 6.
내배캠 TIL 30일차 1. 머신러닝 강의 1) 데이터 수집 (1) 회사에 있는 거. (2) 다운받기. - csv - API 이용 : pd.read_json 등. - 크롤링 : requests, BeautifulSoup(후자 방법은 별로 안 좋아함) . 2) 탐색적 데이터 분석 (EDA) (1) 시각화를 통한 EDA - matplotlib, seaborn. (2) 비지도학습을 통한 EDA : 지도학습할 건덕지를 찾기 위해 비지도학습을 하기도 함. 3) 데이터 전처리 EDA를 통해 전처리 방법을 고안할 것. (1) 범주형 데이터 : 최빈값 대치 - drona(), fillna() - sklearn.impute.SimpleImputer : 통계량으로 대치. - sklearn.impute.IterativeImputer : 다변량대치.. 2024. 1. 30.
내배캠 TIL 18일차 1. 팀 프로젝트 관련 1) 데이터 관련 -> 데이터 분석 전의 과정이 가장 어렵고 오래걸린다. 컨텐츠 데이터는 join하는데 한계가 있는 것으로 보인다. 팀 프로젝트의 주제인 그룹화에 따른 시청 컨텐츠를 짜는 것 또한 데이터의 한계로 인해 힘들 것으로 생각된다. user_data와 nation income에서 join을 할 수 있을 거 같다. 2) 주제 관련 -> 우리는 결국 답을 찾아낸다 왜냐면 찾아낼 때까지 하니까. 결국 적절히 join하면서 user_data에 join할 데이터를 찾으니 주제에서 벗어나지 않아도 될 거 같다. 2. SQLD 강의 관련 -> 시간 관리를 잘 하자. 데이터셋 찾고 찾으면 열어봐서 필요 없는 칼럼 쳐내거나. join할 칼럼 찾고 하다보니 강의 들을 짬 내기가 쉽지가 않다. 2024. 1. 12.
반응형