본문 바로가기
반응형

numpy6

내배캠 TIL 48일차 클러스터링 강의 1. 거리 1) 유클라디안 거리. - 통상적인 최단거리. 2) 맨해튼 거리. - 좌표 차의 합. 3) 민코프스키 거리. - 1), 2)를 결합하여 동시에 나타낸 것. 4) 코사인 거리. - 두 벡터 사이의 세타값에 따른 유사도를 구함. - 코사인 유사도(SIM) = 내적 / 두 벡터 의 크기의 곱. - 코사인 거리 = 1 - SIM 5) 자카드유사도. - 두 벡터의 성분에 대해 합집합에 대한 교집합의 비율. - 넘파이 모듈을 통해 계산할 때에는 사용되는 array의 크기가 같아야 한다 2. 벡터와 행렬의 연산. (1) np.dot. - 단순한 벡터(행렬)의 곱셈 연산. - 1차원 배열의 경우에는 broadcating이라는 법칙을 따름. - 다차원 배열(행렬)의 경우에는 행렬의 곱셈을 위한.. 2024. 3. 19.
내배캠 TIL 38일차 심화 프로젝트 관련 1) 결측치 대치 2) 이상치 제거 4분위수를 사용한 방법은 유실 데이터가 너무 많아 기각. EDS를 사용한 방법 채택. def remove_outliers(train_df, col, threshold=3): mean = np.mean(train_df[col]) std_dev = np.std(train_df[col]) lower_bound = mean - threshold * std_dev upper_bound = mean + threshold * std_dev train_df= train_df[(train_df[col] >= lower_bound) & (train_df[col] 2024. 2. 13.
내배캠 TIL 33일차 머신러닝 개인 과제 1) 라이브러리를 이용해 데이터 불러오기 데이터 출처와 Github 출처가 주어졌다. 데이터 출처는 csv 형태로 바로 다운 받을 수 있는 것이고, Github에서는 모듈을 제시한다. 채점 환경이 어떨지 모르기 때문에 모듈을 사용하여 저장하기로 하였다. '''문제 시작''' !pip install -U ucimlrepo from ucimlrepo import list_available_datasets, fetch_ucirepo # list_available_datasets()을 통해 필요한 데이터셋의 id 확인 bank_marketing = fetch_ucirepo(id=222) df = bank_marketing['data']['original'] df.to_csv('bank_mar.. 2024. 2. 2.
내배캠 TIL 28일차 1. Git 특강 Git이란 개발자들을 위한 워크스페이스. 브랜치(지사와 같은)를 따서 이런 저런 개발을 해보는 것이 가능. 내가 공부한 흔적들을 기록하는 것도 가능. vs code보다 코랩을 즐겨 사용하기 때문에 코랩과 연동하는 법을 찾아봐야겠다. 코랩에서 새 노트 열기를 보면 좌측 탭에 Github이 존재한다. 생각보다 순조로울 거 같다. 2. 기초 통계 강의 ANOVA 이후에 정규성, 등분산 검정에 관한 내용. 이후 선형 회귀에 관한 내용. OLS, MLE에 관한 내용. MLE는 다루지 않았지만 보면 좋을 듯 하다 수식 자체는 너무 깊은 내용이라 자세히 다뤄주시지 않는다. 계량경제학이나 경제통계학. 시계열분석 강의 들을 때가 생각나서 재밌...지는 않고 그립...지도 않다. 요지는 result su.. 2024. 1. 26.
반응형