본문 바로가기
반응형

pandas20

내배캠 TIL 55일차 클러스터링 팀에서 RFM 분류를 한 것과 비교하기 위해 클러스터링을 진행했다 1) pca -> k-means 기존 컬럼들을 스캐일링 후 주성분 분석한 컬럼으로 클러스터링 하여 나온 라벨을 시각화하였다 2) t-SNE 스탠다드 반에서 들었을 때, 로버스트하며 스캐일링이 없었던 것이 떠올라 이 또한 시각화하였다 생각보다 모양이 예쁘게 나오지 않았다 애초에 현실에서 자연스럽게 모이는 데이터는 예쁘게 나오기가 더 힘들 거 같기도 하다 EDA를 통해 클러스터링에서 나온 라벨링마다 특징을 잡아야 한다 EDA 팀내에서 RFM 분류를 한 것과 클러스터링에서 나온 라벨링 맴버십 별 특징을 보았다 R, F, M의 cut시 bins 를 정하는 것을 고심한 성과가 나온 것 같다 RFM 분류에서의 등급은 9개지만 클러스터링에서.. 2024. 4. 5.
내배캠 TIL 53일차 EDA 1. RFM rfm2["recency_score"] = pd.cut(rfm2["Recency"], bins=[0, 36, 146, 255, 328, 365], labels=label_r, include_lowest=True) rfm2["frequency_score"] = pd.cut(rfm2["Frequency"], bins=[0, 33, 66, 99, 131, 329], labels=label_f, include_lowest=True) rfm2["monetary_score"] = pd.cut(rfm2["Monetary"], bins=[0, 7600, 15200, 23500, 30000, 76000], labels=label_m, include_lowest=True) rfm2["RFM_SCORE".. 2024. 4. 1.
내배캠 TIL 47일차 실전 프로젝트 관련 1. CSV 파일 만들기 대시보드 제작을 위한 컬럼을 추가한 기본 csv와 같이 사면 좋은 종목 추천을 위한 csv를 제작하였다. 종목 추천을 위해서 이전에는 국내 주식 1000개를 돌렸었는데, 1000개를 대상으로 추천을 위해 공분산을 산출하는 것은 경우의 수가 너무 많아지기도 하고 기존에 가지고 있는 주식을 해외주식으로 가정하고 만드는 것이기 때문에 해외주식으로 하는 것이 통일성이 더 있어보여서 해외주식으로 하는 것으로 노선을 변경하였다. 또한 지금은 이 모델의 성능을 극한으로 끌어올린다든지 추천을 위해 수집한 데이터의 수가 방대해야 하는 것이 중요한 프로젝트는 아니라고 생각되기에 추천을 위한 해외 주식의 수를 데이터를 수집하는 날 기준으로 상위 100개를 수집하였다. 크롤링 코드.. 2024. 3. 8.
내배캠 TIL 46일차 실전 프로젝트 관련 튜터님 피드백 vs code로 너무 오래 걸리면 kaggle이나 코랩을 통해 하는 것이 바람직. gpu를 할당해주기 때문에 노트북보다는 훨씬 빠를 듯 하다. 기존 문제 국내 주식에서 단일 주식에 대하여 가격의 추이 및 예측, 같이 사면 좋을 주식(포트폴리오 이론 기반) 관련 뉴스 등을 제시하는 대시보드를 제작 중이다. 태블로 내에서 공분산 등의 계산이 어렵기에 파이썬으로 미리 계산하여 csv로 내보내려 했다. pykrx에서 기본으로 제공한 국내 주식 티커는 953개. 반복문으로 단순 이중 for문 돌리면 제곱이 되기 때문에 코드 돌리는데 시간이 엄청 길어졌고, 부차적인 문제로 주갸 데이터이다보니 모든 종목의 데이터의 길이가 일치하지 않았다. (각 회사에 귀책되는 문제로 인해 해당 주식.. 2024. 3. 5.
반응형