본문 바로가기
TIL

내배캠 TIL 17일차

by ColorConeHead 2024. 1. 11.
반응형

1. 기초 프로젝트 발제

1) SQL 기반의 데이터 분석.
2) join을 위하 2개 이상의 데이터셋.


우리팀은 넷플릭스 관련 데이터를 기반으로 진행 중이다.

 

 

 

 

2. 넷플릭스를 고르게 된 이유

1. 데이터가 다양하다.
2. 다양하면서도 얻기가 쉽다.
3. 커뮤니티 사이트에서 OTT 플랫폼을 키워드로 해서 언급수(포스팅수)를 크롤링한 결과 제일 인기가 좋았다.
    아래 코드를 돌린 결과 이미지와 같이 결과가 나왔다.
    심지어 언급수가 아니고 페이지 수였다 한 페이지당 글이 20개.

여기서 payload. 즉 키워드나 페이지수 같은 것을 할당할 때
한글일 경우 인코딩을 해줘야하는데 urllib 모듈을 통해 인코딩 해주었다.
import requests
import re
from urllib import parse

for keyword in keyword_list:
    word = parse.quote(keyword)
    url = f'https:/-------------------------------------------------------------keyword={word}------------------'

    response = requests.get(url=url)
    text = response.content.decode("------")

    pages = re.findall(r'<div class="page">(.+?)</div>', text, re.DOTALL)
    last_page = re.findall(r'>([0-9]+?)</a>', pages[0], re.DOTALL)

    print(f'{keyword} : 약 {last_page[-1]}개')​

.



 

 

 

 

3. 그래서 어떻게 할건데

내가 맡게 된 파트는
유저 데이터가 아닌
컨텐츠 데이터로.

컨텐츠 데이터 중 그룹화가 가능한 컬럼을 기반으로
여러가지 통계량을 내볼 생각이다.

지금은
러닝타임에 따른 평점,
장르별 평점,
서비스 국가에 따른 평점 등을 봤다.

얼른 인사이트를 찾으면 좋겠다.
반응형

'TIL' 카테고리의 다른 글

내배캠 TIL 19일차  (2) 2024.01.15
내배캠 TIL 18일차  (0) 2024.01.12
내배캠 TIL 16일차  (1) 2024.01.10
내배캠 TIL 15일차  (1) 2024.01.09
내배캠 TIL 14일차  (0) 2024.01.08