- 데이터를 읽는 능력. - 데이터를 이해하는 능력. - 데이터를 비판적으로 분석하는 능력. -> 위 결과를 의사소통에 활용할 수 있는 능력.
2) 효과
- 데이터 수집과 데이터 원천을 이해. - 데이터에 대한 활용법을 이해. - 데이터를 통한 핵심지표를 이해. -> 올바른 질문을 던질 수 있도록 만들어 준다.
3) 데이터 분석에 대한 착각
- 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각. - 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각. - 분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각.
-> 데이터 분석 툴 관련된 지식만 습득하는 것은 좋지 않다.
4) 통계 관련 오류
(1) 심슨의 역설. '부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우.
(2) 시각화를 활용한 왜곡. x, y 축의 수치를 어떻게 두느냐에 따라 같은 통계량이 이루는 그래프가 상이하게 나타남 아래는 순서대로 임금, log(임금), 임금 백분율의 변화(시작이 100%)
(3) 샘플링 편향. 전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생.
(4) 상관관계과 인과관계. - 상관관계 : 두 변수가 얼마나 상호 의존적인지를 파악. - 인과관계 : 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미. -> 이 강의가 통계학 지식을 늘리는데 도움이 됐네! (어쩌면).
5) 데이터 분석 접근법
(1) 문제 및 가설 정의 --------------->생각 (2) 데이터 분석 -----------------------> 작업 (3) 결과 해석 및 액션 도출--------->생각
데이터 리터러시가 필요한 '생각' 부분에서 문제가 되는 경우가 많음. 데이터 분석이 목적이 되지 않도록 '왜?'를 항상 생각해야 함.
2. 문제정의
1) 정의
- 데이터 분석 프로젝트의 성공을 위한 초석. - 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술. - 프로젝트의 목표를 설정하고 분석 방향을 결정.
현 상황과, 목표에 대한 구체적인 수치 등이 들어가는 것이 바람직.
”매출을 어떻게 늘릴 수 있을까?” ▼▼▼▼▼▼▼ ▼ ▼▼▼ ”지난 6개월 동안 25-35세 여성 고객의 전환율이 감소. 2%에서 5%로 끌어올리기 위해 어떤 방법을 사용할 수 있을까?”
2) 방법론
(1) MECE - 문제 해결과 분석에서 널리 사용되는 접근 방식. - 문제를 상호 배타적(Mutually Exclusive)이면서 전체적으로 포괄적(Collectively Exhaustive)인 구성요소로 나누는 것.
상호배타적 - 분류기준은 서로 교집합이 없어야 함. 전체포괄적 - 모든 분류기준의 합이 전체집합이여야 함.
(2) 로직 트리 - MECE 원직을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용. - 상위 문제로부터 시작하여 하위문제로 계층적 접근. - 일반적으로 도표 형식으로 표현되어 쉽게 파악 가능.
--> 문제 정의 로직 트리 내용에 대해 해결법으로 채우기.
3) 팁
(1) 문제정의는 - 풀고자 하는 것을 명확하게 정의. - 해결을 위한 데이터 분석의 방향성을 정하기. - 결과를 정리하고 해석. - 더 나아지기 위한 새로운 액션 플랜을 수립.
(2) 핵심 - so what : 그래서 뭐 어떻다고? - why so : 왜 그러는데?
(3) 팁 - 결과를 공유하고자 하는 사람이 누구인지 정의. - 결과를 통해 원하는 변화를 생각. - 회사 소속이라면, 경영자의 입장에서 보려고 노력. - 많은 사람들과 의견을 나눠보는 것도 추천. - 반드시 혼자서 오래 고민해보는 시간을 가질 것.
3. 데이터의 유형
1) 유형별 비교
구분
정량적 데이터
정성적 데이터
유형
정형 데이터 반정형 데이터
비정형 데이터
특징 및 관점
여러 요소의 결합으로 의미 부여 주로 객관적 내용
객체 하나가 함축된 의미 내포 주로 주관적 내용
구성 및 형태
수치나 기호 데이터베이스, 스프레드 시트
문자나 언어 웹 로그, 텍스트 파일
위치
DBMS, 로컬 시스템 등 내부
웹 사이트, 모바일 플랫폼 등 외부
분석
통계 분석 시 용이
통계 분석 시 어려움
4. 지표
1) 정의
어떤 결과를 기대하는가? 에 대한 정량화된 기준.
2) 주요 지표
(1) Active User (활성 유저) : 활성 유저를 어떻게 정의하냐에 따라서 '이탈유저'가 정의 -> 서비스 지표에 중요한 역할 고로 자사 서비스만의 Active User를 찾는 것이 중요
(2) Retention Ratio (재방문율) : 몇 %의 유저가 우리 서비스를 다시 사용하는가?
① N-Day 리텐션 - 최초 사용일로부터 N일 후에 재방문한 Active User의 비율 - 습관적으로 사용하거나 반복적으로 행동을 유도하는 제품에 적합(게임) ② Unbounded 리텐션 - 특정 날짜를 포함하여 그 이후에 재방문한 유저의 비율 - 유저가 정기적으로 반복해서 방문하는 서비스가 아닐 경우 적합(쇼핑몰, 채용사이트) ③ Braket 리텐션 - 설정한 특정 시간을 기반으로 재방문율을 측정 - N-Day 맅ㄴ션을 확장한 개념 ---> 일 / 주 / 월 단위가 아닌 지정한 구간으로 나눔 - 사용주기가 길거나 주기적인 경우 사용하기 적합(식료품)
(3) Funnel (퍼널) : 유저들이 어디서 이탈하는가? ※ AARRR ① Acquisition : 유입 ② Activation : 활성화 ③ Retention : 재방문(재구매) ④ Revenue : 수익 ⑤ Referral : 추천
(4) LTV (Life Time Value, 고객 평생 가치) : 해당 유저가 우리에게 평생 주는 이익은 얼마나 될까? - 고객 생애 주기 : 한 명의 유저가 서비스를 사용하기 시작하여 이탈할 때까지의 기간. - LTV는 한 명의 유저가 생애 주기 동안 얼마만큼의 이익을 주는지를 정량적으로 지표화 한 것. ----> LTV 추측이 가능하다면, 신규 유저를 데려오는 비용(CAC: Customer Acquisition Cost)의 산출 및 효율적인 예산 운용이 가능. ※ 여러가지 산출 방법
이익 x Life Time x 할인율(미래 비용에 대한 현재 가치)
연간 거래액 x 수익률 x 고객 지속 연수
고객의 평균 구매 단가 x 평균 구매 횟수
(매출액 – 매출 원가) / 구매자 수
평균 구매 단가 x 구매 빈도 x 구매 기간
(평균 구매 단가 x 구매 빈도 x 구매 기간) – (신규 획득 비용 + 고객 유지 비용)
월 평균 객단가 / 월 가중 평균 잔존율
(5) 북극성 지표 : 제품/서비스의 ‘성공’을 정의
① 좋은 북극성 지표의 특징 - 제품/서비스 전략의 핵심. - 유저/고객이 제품/서비스에서 느끼는 가치. - 회사의 사업 목표를 나타내는 지표 중 선행지표 (후행X)
② 좋지 않은 북극성 지표의 예
외부 요인의 영향을 많이 받는 지표.
유저/고객의 전체 여정을 반영하지 않는 지표.
유저/고객이 직접 가치를 느낄 수 없는 지표.
측정 불가하거나, 기간 설정이 안되는 지표.
상황에 따라 위 지표들도 북극성 지표가 될 수 있음.
③ 북극성 지표의 중요성 - 방향성 : 조직이 무엇에 최적화되어야 하고, 무엇을 포기해도 되는 지에 대한 방향 제시. - 효율 증대 : 전 직원을 하나의 목표에 집중시킴.
5. 결론 도출
결과 ≠ 결론
결론은 분석된 데이터 결과를 바탕으로 이끌어낸 의미나 통찰.
실제로 우리가 필요한 것은 ‘결론’이지만, 보통 결과를 많이 이야기 함.
※ 결론을 잘 정리하는 법 - 앞서 문제 정의, 지표 설정을 할 당시의 목적을 떠올리며 정리.
- 결론을 공유할 대상이 누구, 뭘 원하는지? 생각하기 : 공유 받는 사람의 시선에서 이해하기 쉽도록 정리.