반응형
EDA
RFM에 추가할 수 있는 요소들을 나름대로 생각해보았다
1. 통상적으로 구매주기가 긴 카테고리에 대한 가중치
2. 구매횟수 대비 쿠폰 사용 빈도(낮을 수록 높은 등급)
EDA에 진척이 없어서
데이터를 유저 ID를 기준으로 모수화시켜서
클러스터링을 먼저 한 후에
공통된 요소를 찾는 것도 방법이라고 생각한다
주성분분석
1. 정의
데이터의 특성을 최대한 보존하면서 차원을 축소하는
주성분을 찾아내는 방법.
주성분은 기존 변수(컬럼)들의 선형결합으로 만들어진다.
선형 결합 : c1 = a * x1 + b * x2
즉, 기존에 데이터 차원(feature)값을 결합하여
이 데이터를 잘 설명할 수 있는 새로운 종합점수를 만들어
보다 적은 차원으로 데이터를 설명하려는 방법.
2. 장단점
장점)
고차원의 데이터를 차원 축소하여 데이터 분포를 좀 더 쉽게 살펴볼 수 있다.
차원 축소를 통해 머신러닝 모델 학습 효율을 높일 수 있습니다(차원의 저주 해소).
기존 데이터 차원에서의 변수 중요도를 확인할 수 있습니다.
주성분으로 선형변환하는 식에서 계수값이 큰 변수는 데이터의 분포에 영향력이 크다고 해석할 수 있습니다.
단점)
기존에 각 차원별로 가지고 있는 의미를 사용할 수 없습니다.
각각의 주성분이 어떤 의미(특징값)인지 해석이 어렵습니다.
데이터의 전체 분포(분산)를 반영한 것이 아니기 때문에 정보 손실이 발생합니다.
반응형
'TIL' 카테고리의 다른 글
내배캠 TIL 54일차 (0) | 2024.04.04 |
---|---|
내배캠 TIL 53일차 (1) | 2024.04.01 |
내배캠 TIL 51일차 (0) | 2024.03.28 |
내배캠 TIL 50일차 (0) | 2024.03.27 |
내배캠 TIL 49일차 (0) | 2024.03.26 |