본문 바로가기
반응형

data5

내배캠 TIL 37일차 심화 프로젝트 1) 결측치 대치 근로기간이 "Unknown"인 것들을 어떻게 대치해야할까. 단순대치를 위해 다른 근로기간의 변수 분포와 비교해보았다. 아래 코드는 근로기간이 "Unknown"인 row의 category_feature의 분포가 어떤 근로기간과 비슷한지 알아본 코드다. sse가 가장 작은 년도로 대치하려는 목적으로 이 코드를 작성했다. 결과는 5로 낙점. regression 이랑 뭐가 다르냐고 할 수 있겠는데, 회귀결과가 5가 많이 나올 수도 있겠지만 5가 아닌 다른 값이 나올 수도 있기 때문에 다르긴 하다. 회귀를 하는 방식 또한 해볼 예정이다 df = pd.read_csv('train.csv') df = df.drop(index=df[df['주택소유상태'] == 'ANY'].index) .. 2024. 2. 8.
내배캠 TIL 26일차 1. 데이터 분석 과제 1) 날짜 전처리 log_date col을 pd.to_datetime 으로 그냥 사용 시. YY-MM-DD의 구조로 읽어오지 않음. df.log_date = pd.to_datetime(df.log_date, format='%y-%m-%d')​ 위와 같이 format 인수를 추가해줘야 했다. condition = (df['log_date'] >= '2019-02-01') & (df['log_date'] 2024. 1. 24.
내배캠 TIL 25일차 1. 통계학 기초 강의 1) 평균 (1) 평균의 종류 ① 산술평균 : 일반적으로 생각하는 평균 = (a + b) / 2 아래 평균은 시간의 흐름에 따른 변화량의 평균 산출. ② 기하평균 : 비율의 평균 = (ab) ** (1/2) - 숫자들의 로그값에 대해 산술평균을 구한 뒤, 지수 함수를 취한 것과 같다. ex) 연평균수익률 ③ 조화평균 : 값의 평균 = 2(a + b) / ab - 역수의 산술평균을 구해 다시 역수 취하기. ex) 주행거리를 모를 때의 평균 속력 구하기. ④ 로그평균 : 각 관측치를 자연로그변환한 뒤 산술평균을 집계. = (1/n) * ∑ ln(Xi) - 이상치와 왜도에 강건 - 이는 로그변환이 preprocessing에서의 scaling이기 때문. ⑤ 절삭평균 : 상/하위 데이터를 .. 2024. 1. 23.
내배캠 TIL 19일차 1. 팀 프로젝트 - PPT 제작 주요 개념 : 컴프리헨션, pie 차트 그리기, 3항 연산자. ppt의 템플릿과 내용에 들어갈 그래프를 제작하게 되었다. 아래와 같이 있는 데이터 프레임을 df3 = pd.read_csv('----------.csv') two = df3[df3['연령대'] == '20대'].sum() three = df3[df3['연령대'] == '30대'].sum() four = df3[df3['연령대'] == '40대'].sum() five = df3[df3['연령대'] == '50대'].sum() over_six = df3[df3['연령대'] == '60대이상'].sum() box = [two, three, four, five, over_six] x = ['20대', '30대', .. 2024. 1. 15.
반응형