반응형
1. 데이터 분석 개인 과제 해설
1) numpy와 pandas는 분산 계산시 적용하는 자유도가 다르니 주의
2) boolean 인덱싱 사용시 ~을 앞에 붙이면 not이 된다.
코드 리뷰를 같이 하면서
라이브 코딩을 하는 느낌의 해설이었다.
2. 머신러닝 강의
1) 머신러닝의 종류
(1) 지도학습.
(2) 비지도학습.
(3) 강화학습.
2) Gauss - Markov 정리
여러가지 회귀식 추정이 있고
그 중 몇 추정법을 위해서는 몇가지 가정이 필요한데
이를 "Gauss - Markov 정리" 라 한다.
(1) 선형성 : 종속변수 y는 선형결합의 형태.
(2) 오차항의 기댓값은 0이다.
(3) 오차항은 등분산성을 가진다.
(4) 오차항끼리는 독립이다(자기상관 x).
(5) 독립변수와 오차항은 독립이다(공분산이 0).
(6) 오차항은 정규분포를 따른다.
(6)은 검정을 위해 필요한 가정이긴 하다.
(1)~(5)를 모두 만족시킨 회귀식의 계수는 BLUE이다.
Best Linear Unbiased Estimators.
최고의 불편 선형 추정치?.
3) 회귀식 추정법
정말 다양한 추정법이 있겠지만 내가 찾은 것들은 아래와 같다.
(1) OLS
오차의 제곱합을 최소화시키는 방법론.
위 식을 최소화한다 = 미분하여 극값을 찾는다.
x, y는 실제 데이터이므로
우리가 모르는 베타값들로 편미분하여 구한다.
(2) MLE
이 방식을 위해서는 잔차가 정규분포를 따른다는 가정이 있어야 한다(위의 6번 가정).
위 표준정규분포의에서 확률밀도함수에서
x 대신에 우리는 오차항, 분산은 시그마^2을 쓸 것이다.
이는 Gauss - Markov 정리의 2, 3, 6에 의거하여 가능.
기여도란 f(x) 값이 위의 점들이 주황색, 또는 파란색 분포에서 이루는 높이.
위 5개 점들은 명백히 주황색 분포에서 나왔을 확률이 높아보이며,
기여도의 곱 또한 주황의 경우가 높다.
MLE는 log likelihood 함수 = 기여도 다 곱해서 로그취한 것을 극대화 하는 방법론.
로그를 취해서 곱을 합으로 바꿀 수 있기 때문에
OLS와 같게 만들 수 있다.
위 식 또한 우리가 X 대신 치환한 y - y_hat에서
베타값들로 편미분하여 풀어나가면 된다.
계량경제학, 시계열분석 때 들어봤던 내용들이다
물론 너무 오랜만에 만나서 어렵지만
그래도 한 번 들어는 봤던 내용이니 다행인가..
수식도 손으로 한 번 전개해보고 해야 익숙해질 거 같다.
반응형
'TIL' 카테고리의 다른 글
내배캠 TIL 31일차 (0) | 2024.01.31 |
---|---|
내배캠 TIL 30일차 (0) | 2024.01.30 |
내배캠 TIL 28일차 (0) | 2024.01.26 |
내배캠 TIL 27일차 (1) | 2024.01.25 |
내배캠 TIL 26일차 (1) | 2024.01.24 |