본문 바로가기
반응형

크롤링3

내배캠 TIL 15일차 1. 알고리즘 특강 1) 자료구조 (1) 해시 테이블. - Key와 Value로 이루어진 “사전형“ 자료형. - Hash Table은 Python 에서 Dictionary 형으로 구현. (2) 트리 - 머신러닝 혹은 분석방법론에서 의사결정나무(Tree) 개념이 등장. (3) 그래프 - 데이터베이스에서의 다이어그램 같다. 2. 팀 프로젝트 1) 주제 (1) 한국 모바일 OTT 콘텐츠 장르 및 이용자 특성을 통한 마케팅 전략 선정. - 키즈 콘텐츠 특화. - EDA를 통해 특화할 요소를 찾아볼 것. (2) 넷플릭스 사용자 로그 분석을 통한 서비스 개선 방향 제시. - EDA를 통해 특화할 요소를 찾아볼 것. 2) 개인 크롤링 코드 사용한 사이트가 최신 정보로 로딩 후에 페이로드를 받아서 검색해주는 방식이여서.. 2024. 1. 9.
내배캠 TIL 3일차 어제 코드 추가하기 어제 만든 코드는 크롤링을 잘 해오는지 테스트용으로 리스트 길이를 출력하는 함수에서 끝났다면 오늘은 엑셀파일로 내보내는 것까지 코드를 수정했다. import re import pandas as pd import requests import numpy as np game_name = [] # 게임이름 game_score = [] # 게임평점 game_platform = [] # 발매플랫폼 game_year = [] # 출시년도 game_sales = [] # 판매량 game_total_shipped = [] # 총판매량(실물타이틀+디지털) game_total_sales = [] # 총판매량(디지털) ### 리스트에 있는 년도의 발매 게임 정보를 크롤링 years = [2017, 2018.. 2023. 12. 30.
내배캠 TIL 2일차 지난 번에 두서없이 짰던 코드를 수정하는 시간을 가졌다. ``` import re import pandas as pd import requests game_name = [] # 게임이름 game_score = [] # 게임평점 game_platform = [] # 발매플랫폼 game_year = [] # 출시년도 game_sales = [] # 판매량 ### 리스트에 있는 년도의 발매 게임 정보를 크롤링 years = [2017, 2018, 2019, 2020, 2021, 2022, 2023] for year in years: page = 1 # 1페이지는 기본값 while True: # year와 page 값을 받아와 url을 설정해서 requests로 소스코드 읽어오기 url = f'https://o.. 2023. 12. 30.
반응형