내배캠 TIL 17일차

1. 기초 프로젝트 발제

1) SQL 기반의 데이터 분석.
2) join을 위하 2개 이상의 데이터셋.

우리팀은 넷플릭스 관련 데이터를 기반으로 진행 중이다.

2. 넷플릭스를 고르게 된 이유

1. 데이터가 다양하다.
2. 다양하면서도 얻기가 쉽다.
3. 커뮤니티 사이트에서 OTT 플랫폼을 키워드로 해서 언급수(포스팅수)를 크롤링한 결과 제일 인기가 좋았다.
아래 코드를 돌린 결과 이미지와 같이 결과가 나왔다.
~~심지어 언급수가 아니고 페이지 수였다 한 페이지당 글이 20개.~~

여기서 payload. 즉 키워드나 페이지수 같은 것을 할당할 때
한글일 경우 인코딩을 해줘야하는데 urllib 모듈을 통해 인코딩 해주었다.
import requests
import re
from urllib import parse

for keyword in keyword_list:
    word = parse.quote(keyword)
    url = f'https:/-------------------------------------------------------------keyword={word}------------------'

    response = requests.get(url=url)
    text = response.content.decode("------")

    pages = re.findall(r'<div class="page">(.+?)</div>', text, re.DOTALL)
    last_page = re.findall(r'>([0-9]+?)</a>', pages[0], re.DOTALL)

    print(f'{keyword} : 약 {last_page[-1]}개')
.

3. 그래서 어떻게 할건데

내가 맡게 된 파트는
유저 데이터가 아닌
컨텐츠 데이터로.

컨텐츠 데이터 중 그룹화가 가능한 컬럼을 기반으로
여러가지 통계량을 내볼 생각이다.

지금은
러닝타임에 따른 평점,
장르별 평점,
서비스 국가에 따른 평점 등을 봤다.

얼른 인사이트를 찾으면 좋겠다.

저작자표시 비영리 변경금지

'TIL' 카테고리의 다른 글

내배캠 TIL 19일차 (2)	2024.01.15
내배캠 TIL 18일차 (0)	2024.01.12
내배캠 TIL 16일차 (1)	2024.01.10
내배캠 TIL 15일차 (1)	2024.01.09
내배캠 TIL 14일차 (0)	2024.01.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ColorConeHead

내배캠 TIL 17일차

1. 기초 프로젝트 발제

2. 넷플릭스를 고르게 된 이유

3. 그래서 어떻게 할건데

'TIL' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

내배캠 TIL 17일차

1. 기초 프로젝트 발제

2. 넷플릭스를 고르게 된 이유

3. 그래서 어떻게 할건데

'TIL' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역