1. 데이터가 다양하다. 2. 다양하면서도 얻기가 쉽다. 3. 커뮤니티 사이트에서 OTT 플랫폼을 키워드로 해서 언급수(포스팅수)를 크롤링한 결과 제일 인기가 좋았다. 아래 코드를 돌린 결과 이미지와 같이 결과가 나왔다. 심지어 언급수가 아니고 페이지 수였다 한 페이지당 글이 20개.
여기서 payload. 즉 키워드나 페이지수 같은 것을 할당할 때 한글일 경우 인코딩을 해줘야하는데 urllib 모듈을 통해 인코딩 해주었다.
import requests
import re
from urllib import parse
for keyword in keyword_list:
word = parse.quote(keyword)
url = f'https:/-------------------------------------------------------------keyword={word}------------------'
response = requests.get(url=url)
text = response.content.decode("------")
pages = re.findall(r'<div class="page">(.+?)</div>', text, re.DOTALL)
last_page = re.findall(r'>([0-9]+?)</a>', pages[0], re.DOTALL)
print(f'{keyword} : 약 {last_page[-1]}개')