반응형 pandas20 내배캠 TIL 45일차 실전 프로젝트 관련 1. Pandas 이동평균과 차분을 위한 메서드를 검색했다. temp['SMA_120days'] = temp['Close'].rolling(window=120).mean().round() temp['profit'] = ((temp['Close'] - temp['Close'].shift(1)) / temp['Close'].shift(1))*100 rolling(window)를 통해 원하는 단위의 구간을 설정하여 이동평균을 낸다. shift()를 통해 원하는만큼 lag 오퍼레이터를 실행한다. 2. seaborn prophet 모델에 내장되어 있는 plot을 사용할 수 없기에 비슷하게 구현하려 했다. 신뢰구간이 있을 때, fill_between 메서드가 굉장히 매력적이다. data = d.. 2024. 3. 4. 내배캠 TIL 38일차 심화 프로젝트 관련 1) 결측치 대치 2) 이상치 제거 4분위수를 사용한 방법은 유실 데이터가 너무 많아 기각. EDS를 사용한 방법 채택. def remove_outliers(train_df, col, threshold=3): mean = np.mean(train_df[col]) std_dev = np.std(train_df[col]) lower_bound = mean - threshold * std_dev upper_bound = mean + threshold * std_dev train_df= train_df[(train_df[col] >= lower_bound) & (train_df[col] 2024. 2. 13. 내배캠 TIL 37일차 심화 프로젝트 1) 결측치 대치 근로기간이 "Unknown"인 것들을 어떻게 대치해야할까. 단순대치를 위해 다른 근로기간의 변수 분포와 비교해보았다. 아래 코드는 근로기간이 "Unknown"인 row의 category_feature의 분포가 어떤 근로기간과 비슷한지 알아본 코드다. sse가 가장 작은 년도로 대치하려는 목적으로 이 코드를 작성했다. 결과는 5로 낙점. regression 이랑 뭐가 다르냐고 할 수 있겠는데, 회귀결과가 5가 많이 나올 수도 있겠지만 5가 아닌 다른 값이 나올 수도 있기 때문에 다르긴 하다. 회귀를 하는 방식 또한 해볼 예정이다 df = pd.read_csv('train.csv') df = df.drop(index=df[df['주택소유상태'] == 'ANY'].index) .. 2024. 2. 8. 내배캠 TIL 33일차 머신러닝 개인 과제 1) 라이브러리를 이용해 데이터 불러오기 데이터 출처와 Github 출처가 주어졌다. 데이터 출처는 csv 형태로 바로 다운 받을 수 있는 것이고, Github에서는 모듈을 제시한다. 채점 환경이 어떨지 모르기 때문에 모듈을 사용하여 저장하기로 하였다. '''문제 시작''' !pip install -U ucimlrepo from ucimlrepo import list_available_datasets, fetch_ucirepo # list_available_datasets()을 통해 필요한 데이터셋의 id 확인 bank_marketing = fetch_ucirepo(id=222) df = bank_marketing['data']['original'] df.to_csv('bank_mar.. 2024. 2. 2. 이전 1 2 3 4 5 다음 반응형