반응형 TIL54 내배캠 TIL 30일차 1. 머신러닝 강의 1) 데이터 수집 (1) 회사에 있는 거. (2) 다운받기. - csv - API 이용 : pd.read_json 등. - 크롤링 : requests, BeautifulSoup(후자 방법은 별로 안 좋아함) . 2) 탐색적 데이터 분석 (EDA) (1) 시각화를 통한 EDA - matplotlib, seaborn. (2) 비지도학습을 통한 EDA : 지도학습할 건덕지를 찾기 위해 비지도학습을 하기도 함. 3) 데이터 전처리 EDA를 통해 전처리 방법을 고안할 것. (1) 범주형 데이터 : 최빈값 대치 - drona(), fillna() - sklearn.impute.SimpleImputer : 통계량으로 대치. - sklearn.impute.IterativeImputer : 다변량대치.. 2024. 1. 30. 내배캠 TIL 29일차 1. 데이터 분석 개인 과제 해설 1) numpy와 pandas는 분산 계산시 적용하는 자유도가 다르니 주의 2) boolean 인덱싱 사용시 ~을 앞에 붙이면 not이 된다. 코드 리뷰를 같이 하면서 라이브 코딩을 하는 느낌의 해설이었다. 2. 머신러닝 강의 1) 머신러닝의 종류 (1) 지도학습. (2) 비지도학습. (3) 강화학습. 2) Gauss - Markov 정리 여러가지 회귀식 추정이 있고 그 중 몇 추정법을 위해서는 몇가지 가정이 필요한데 이를 "Gauss - Markov 정리" 라 한다. (1) 선형성 : 종속변수 y는 선형결합의 형태. (2) 오차항의 기댓값은 0이다. (3) 오차항은 등분산성을 가진다. (4) 오차항끼리는 독립이다(자기상관 x). (5) 독립변수와 오차항은 독립이다(공분.. 2024. 1. 29. 내배캠 TIL 28일차 1. Git 특강 Git이란 개발자들을 위한 워크스페이스. 브랜치(지사와 같은)를 따서 이런 저런 개발을 해보는 것이 가능. 내가 공부한 흔적들을 기록하는 것도 가능. vs code보다 코랩을 즐겨 사용하기 때문에 코랩과 연동하는 법을 찾아봐야겠다. 코랩에서 새 노트 열기를 보면 좌측 탭에 Github이 존재한다. 생각보다 순조로울 거 같다. 2. 기초 통계 강의 ANOVA 이후에 정규성, 등분산 검정에 관한 내용. 이후 선형 회귀에 관한 내용. OLS, MLE에 관한 내용. MLE는 다루지 않았지만 보면 좋을 듯 하다 수식 자체는 너무 깊은 내용이라 자세히 다뤄주시지 않는다. 계량경제학이나 경제통계학. 시계열분석 강의 들을 때가 생각나서 재밌...지는 않고 그립...지도 않다. 요지는 result su.. 2024. 1. 26. 내배캠 TIL 27일차 1. 통계학 기초 강의 1) 중심극한정리 독립적이고 동일한 분포를 갖는 확률분포의 확률변수는 그 표본의 수가 충분히 커지면 표본평균의 분포가 정규 분포를 따른다. 따라서 정규분포를 이용하면 원래의 분포와 상관없이 평균에 대한 통계 모델 제작 가능. 그러나 현실에서는 데이터마다 정규분포에 수렴하게 해주는 표본수(N)가 다르거나 독립적이고 동일한 분포를 가지지 않음. 1. 독립성 깨짐 : 주가, 날씨(AR model?). 2. 동일성 깨짐 : 성별 구분 없는 신장 집계. 2) t-분포 모평균, 모분산 등. 모집단에 대한 정보를 모르기 때문에 t-분포를 대신 사용. 3) 가설 검정 귀무가설(영가설). 대립가설(우리가 원하는 결과 보통). 1종 오류 : 귀무가설이 맞았는데 기각하는 것. 2종 오류 : 귀무가설이.. 2024. 1. 25. 이전 1 ··· 4 5 6 7 8 9 10 ··· 14 다음 반응형