본문 바로가기
반응형

분류 전체보기66

내배캠 TIL 48일차 클러스터링 강의 1. 거리 1) 유클라디안 거리. - 통상적인 최단거리. 2) 맨해튼 거리. - 좌표 차의 합. 3) 민코프스키 거리. - 1), 2)를 결합하여 동시에 나타낸 것. 4) 코사인 거리. - 두 벡터 사이의 세타값에 따른 유사도를 구함. - 코사인 유사도(SIM) = 내적 / 두 벡터 의 크기의 곱. - 코사인 거리 = 1 - SIM 5) 자카드유사도. - 두 벡터의 성분에 대해 합집합에 대한 교집합의 비율. - 넘파이 모듈을 통해 계산할 때에는 사용되는 array의 크기가 같아야 한다 2. 벡터와 행렬의 연산. (1) np.dot. - 단순한 벡터(행렬)의 곱셈 연산. - 1차원 배열의 경우에는 broadcating이라는 법칙을 따름. - 다차원 배열(행렬)의 경우에는 행렬의 곱셈을 위한.. 2024. 3. 19.
내배캠 WIL 11주차 지난 1주일을 돌아보며... Facts. 1. 실전 프로젝트 진행. 2. 파이썬 - 빅쿼리 - 태블로 연동. Feelings 1. 프로젝트 중간에 바뀌는 요소가 많은 것은 자연스러운 일이다. 2. 결국에는 누군가가 다 해놨으니까 잘 찾아봐라. Findings 1. 파이썬에서 빅쿼리에 파일을 업로는 하는 법 2. Selenium을 통한 크롤링 Future 빅쿼리 연동해서 조금 더 관련 자료를 찾아보고 다양한 최적화를 해볼 것. Selenium을 통한 크롤링에 익숙해질 것 2024. 3. 8.
내배캠 TIL 47일차 실전 프로젝트 관련 1. CSV 파일 만들기 대시보드 제작을 위한 컬럼을 추가한 기본 csv와 같이 사면 좋은 종목 추천을 위한 csv를 제작하였다. 종목 추천을 위해서 이전에는 국내 주식 1000개를 돌렸었는데, 1000개를 대상으로 추천을 위해 공분산을 산출하는 것은 경우의 수가 너무 많아지기도 하고 기존에 가지고 있는 주식을 해외주식으로 가정하고 만드는 것이기 때문에 해외주식으로 하는 것이 통일성이 더 있어보여서 해외주식으로 하는 것으로 노선을 변경하였다. 또한 지금은 이 모델의 성능을 극한으로 끌어올린다든지 추천을 위해 수집한 데이터의 수가 방대해야 하는 것이 중요한 프로젝트는 아니라고 생각되기에 추천을 위한 해외 주식의 수를 데이터를 수집하는 날 기준으로 상위 100개를 수집하였다. 크롤링 코드.. 2024. 3. 8.
내배캠 TIL 46일차 실전 프로젝트 관련 튜터님 피드백 vs code로 너무 오래 걸리면 kaggle이나 코랩을 통해 하는 것이 바람직. gpu를 할당해주기 때문에 노트북보다는 훨씬 빠를 듯 하다. 기존 문제 국내 주식에서 단일 주식에 대하여 가격의 추이 및 예측, 같이 사면 좋을 주식(포트폴리오 이론 기반) 관련 뉴스 등을 제시하는 대시보드를 제작 중이다. 태블로 내에서 공분산 등의 계산이 어렵기에 파이썬으로 미리 계산하여 csv로 내보내려 했다. pykrx에서 기본으로 제공한 국내 주식 티커는 953개. 반복문으로 단순 이중 for문 돌리면 제곱이 되기 때문에 코드 돌리는데 시간이 엄청 길어졌고, 부차적인 문제로 주갸 데이터이다보니 모든 종목의 데이터의 길이가 일치하지 않았다. (각 회사에 귀책되는 문제로 인해 해당 주식.. 2024. 3. 5.
반응형