본문 바로가기

requests3

내배캠 TIL 17일차 1. 기초 프로젝트 발제 1) SQL 기반의 데이터 분석. 2) join을 위하 2개 이상의 데이터셋. 우리팀은 넷플릭스 관련 데이터를 기반으로 진행 중이다. 2. 넷플릭스를 고르게 된 이유 1. 데이터가 다양하다. 2. 다양하면서도 얻기가 쉽다. 3. 커뮤니티 사이트에서 OTT 플랫폼을 키워드로 해서 언급수(포스팅수)를 크롤링한 결과 제일 인기가 좋았다. 아래 코드를 돌린 결과 이미지와 같이 결과가 나왔다. 심지어 언급수가 아니고 페이지 수였다 한 페이지당 글이 20개. 여기서 payload. 즉 키워드나 페이지수 같은 것을 할당할 때 한글일 경우 인코딩을 해줘야하는데 urllib 모듈을 통해 인코딩 해주었다. import requests import re from urllib import parse .. 2024. 1. 11.

내배캠 TIL 15일차 1. 알고리즘 특강 1) 자료구조 (1) 해시 테이블. - Key와 Value로 이루어진 “사전형“ 자료형. - Hash Table은 Python 에서 Dictionary 형으로 구현. (2) 트리 - 머신러닝 혹은 분석방법론에서 의사결정나무(Tree) 개념이 등장. (3) 그래프 - 데이터베이스에서의 다이어그램 같다. 2. 팀 프로젝트 1) 주제 (1) 한국 모바일 OTT 콘텐츠 장르 및 이용자 특성을 통한 마케팅 전략 선정. - 키즈 콘텐츠 특화. - EDA를 통해 특화할 요소를 찾아볼 것. (2) 넷플릭스 사용자 로그 분석을 통한 서비스 개선 방향 제시. - EDA를 통해 특화할 요소를 찾아볼 것. 2) 개인 크롤링 코드 사용한 사이트가 최신 정보로 로딩 후에 페이로드를 받아서 검색해주는 방식이여서.. 2024. 1. 9.

내배캠 TIL 2일차 지난 번에 두서없이 짰던 코드를 수정하는 시간을 가졌다. ``` import re import pandas as pd import requests game_name = [] # 게임이름 game_score = [] # 게임평점 game_platform = [] # 발매플랫폼 game_year = [] # 출시년도 game_sales = [] # 판매량 ### 리스트에 있는 년도의 발매 게임 정보를 크롤링 years = [2017, 2018, 2019, 2020, 2021, 2022, 2023] for year in years: page = 1 # 1페이지는 기본값 while True: # year와 page 값을 받아와 url을 설정해서 requests로 소스코드 읽어오기 url = f'https://o.. 2023. 12. 30.

이전 1 다음

티스토리툴바