본문 바로가기
반응형

EDA17

내배캠 TIL 55일차 클러스터링 팀에서 RFM 분류를 한 것과 비교하기 위해 클러스터링을 진행했다 1) pca -> k-means 기존 컬럼들을 스캐일링 후 주성분 분석한 컬럼으로 클러스터링 하여 나온 라벨을 시각화하였다 2) t-SNE 스탠다드 반에서 들었을 때, 로버스트하며 스캐일링이 없었던 것이 떠올라 이 또한 시각화하였다 생각보다 모양이 예쁘게 나오지 않았다 애초에 현실에서 자연스럽게 모이는 데이터는 예쁘게 나오기가 더 힘들 거 같기도 하다 EDA를 통해 클러스터링에서 나온 라벨링마다 특징을 잡아야 한다 EDA 팀내에서 RFM 분류를 한 것과 클러스터링에서 나온 라벨링 맴버십 별 특징을 보았다 R, F, M의 cut시 bins 를 정하는 것을 고심한 성과가 나온 것 같다 RFM 분류에서의 등급은 9개지만 클러스터링에서.. 2024. 4. 5.
내배캠 TIL 54일차 1. 가이드라인 1) 데이터 정제 원본데이터 : 로그데이터 원본데이터 -> 유저 특성 데이터 - 클러스터링 이후에 결과 집단의 특성을 토대로 비즈니스 전략 수립 가능 -> 비즈니스 전략 데이터 (1) 유저 분석을 위한 유저 기준으로 정리된 데이터 - 클러스터링 => 유저특성지표 row의 단위 : 유저 1명 col의 단위 : 해당 유저에 대한 통계량 + EDA해서 나온 요소들을 통합하기 (2) 마케팅, 비즈니스 전략을 위한 데이터 => 경향성, 인사이트 지표 2. EDA 1) R, F, M + 가중치 R : 총금액을 고려해서 얼마 이상은 (기간 * 0.8) F : 총금액을 고려해서 얼마 이상은 (기간 * 1.2) 2) 구매횟수대비 쿠폰사용율 3) 평균구매주기 4) ROAS 지표 = 광고비 대비 매출액(수익.. 2024. 4. 4.
내배캠 TIL 53일차 EDA 1. RFM rfm2["recency_score"] = pd.cut(rfm2["Recency"], bins=[0, 36, 146, 255, 328, 365], labels=label_r, include_lowest=True) rfm2["frequency_score"] = pd.cut(rfm2["Frequency"], bins=[0, 33, 66, 99, 131, 329], labels=label_f, include_lowest=True) rfm2["monetary_score"] = pd.cut(rfm2["Monetary"], bins=[0, 7600, 15200, 23500, 30000, 76000], labels=label_m, include_lowest=True) rfm2["RFM_SCORE".. 2024. 4. 1.
내배캠 TIL 52일차 EDA RFM에 추가할 수 있는 요소들을 나름대로 생각해보았다 1. 통상적으로 구매주기가 긴 카테고리에 대한 가중치 2. 구매횟수 대비 쿠폰 사용 빈도(낮을 수록 높은 등급) EDA에 진척이 없어서 데이터를 유저 ID를 기준으로 모수화시켜서 클러스터링을 먼저 한 후에 공통된 요소를 찾는 것도 방법이라고 생각한다 주성분분석 1. 정의 데이터의 특성을 최대한 보존하면서 차원을 축소하는 주성분을 찾아내는 방법. 주성분은 기존 변수(컬럼)들의 선형결합으로 만들어진다. 선형 결합 : c1 = a * x1 + b * x2 즉, 기존에 데이터 차원(feature)값을 결합하여 이 데이터를 잘 설명할 수 있는 새로운 종합점수를 만들어 보다 적은 차원으로 데이터를 설명하려는 방법. 2. 장단점 장점) 고차원의 데이터를 .. 2024. 3. 29.
반응형