본문 바로가기
반응형

ML15

내배캠 TIL 55일차 클러스터링 팀에서 RFM 분류를 한 것과 비교하기 위해 클러스터링을 진행했다 1) pca -> k-means 기존 컬럼들을 스캐일링 후 주성분 분석한 컬럼으로 클러스터링 하여 나온 라벨을 시각화하였다 2) t-SNE 스탠다드 반에서 들었을 때, 로버스트하며 스캐일링이 없었던 것이 떠올라 이 또한 시각화하였다 생각보다 모양이 예쁘게 나오지 않았다 애초에 현실에서 자연스럽게 모이는 데이터는 예쁘게 나오기가 더 힘들 거 같기도 하다 EDA를 통해 클러스터링에서 나온 라벨링마다 특징을 잡아야 한다 EDA 팀내에서 RFM 분류를 한 것과 클러스터링에서 나온 라벨링 맴버십 별 특징을 보았다 R, F, M의 cut시 bins 를 정하는 것을 고심한 성과가 나온 것 같다 RFM 분류에서의 등급은 9개지만 클러스터링에서.. 2024. 4. 5.
내배캠 TIL 54일차 1. 가이드라인 1) 데이터 정제 원본데이터 : 로그데이터 원본데이터 -> 유저 특성 데이터 - 클러스터링 이후에 결과 집단의 특성을 토대로 비즈니스 전략 수립 가능 -> 비즈니스 전략 데이터 (1) 유저 분석을 위한 유저 기준으로 정리된 데이터 - 클러스터링 => 유저특성지표 row의 단위 : 유저 1명 col의 단위 : 해당 유저에 대한 통계량 + EDA해서 나온 요소들을 통합하기 (2) 마케팅, 비즈니스 전략을 위한 데이터 => 경향성, 인사이트 지표 2. EDA 1) R, F, M + 가중치 R : 총금액을 고려해서 얼마 이상은 (기간 * 0.8) F : 총금액을 고려해서 얼마 이상은 (기간 * 1.2) 2) 구매횟수대비 쿠폰사용율 3) 평균구매주기 4) ROAS 지표 = 광고비 대비 매출액(수익.. 2024. 4. 4.
내배캠 TIL 52일차 EDA RFM에 추가할 수 있는 요소들을 나름대로 생각해보았다 1. 통상적으로 구매주기가 긴 카테고리에 대한 가중치 2. 구매횟수 대비 쿠폰 사용 빈도(낮을 수록 높은 등급) EDA에 진척이 없어서 데이터를 유저 ID를 기준으로 모수화시켜서 클러스터링을 먼저 한 후에 공통된 요소를 찾는 것도 방법이라고 생각한다 주성분분석 1. 정의 데이터의 특성을 최대한 보존하면서 차원을 축소하는 주성분을 찾아내는 방법. 주성분은 기존 변수(컬럼)들의 선형결합으로 만들어진다. 선형 결합 : c1 = a * x1 + b * x2 즉, 기존에 데이터 차원(feature)값을 결합하여 이 데이터를 잘 설명할 수 있는 새로운 종합점수를 만들어 보다 적은 차원으로 데이터를 설명하려는 방법. 2. 장단점 장점) 고차원의 데이터를 .. 2024. 3. 29.
내배캠 TIL 50일차 1. 프로젝트 프로젝트명 이커머스 고객 유형별 비즈니스 전략. 내용 클러스터링을 통한 이커머스 고객 유형 세분화. 고객 유형별 비즈니스 전략 제시. A/B 테스트를 통한 전략 실효성 검증. 한 줄 정리 이커머스 고객 유형별 분류 및 비즈니스 전략 수립. 프로젝트 핵심 기술 RFM, AARRR, 고객생애가치 분석. 클러스터링. 머신러닝, 시계열 예측. 태블로 대시보드. 프로젝트의 큰 뼈대를 정했다 다음은 필요한 개념들에 살을 붙이는 것이다. 2024. 3. 27.
반응형