반응형 statistics3 내배캠 TIL 27일차 1. 통계학 기초 강의 1) 중심극한정리 독립적이고 동일한 분포를 갖는 확률분포의 확률변수는 그 표본의 수가 충분히 커지면 표본평균의 분포가 정규 분포를 따른다. 따라서 정규분포를 이용하면 원래의 분포와 상관없이 평균에 대한 통계 모델 제작 가능. 그러나 현실에서는 데이터마다 정규분포에 수렴하게 해주는 표본수(N)가 다르거나 독립적이고 동일한 분포를 가지지 않음. 1. 독립성 깨짐 : 주가, 날씨(AR model?). 2. 동일성 깨짐 : 성별 구분 없는 신장 집계. 2) t-분포 모평균, 모분산 등. 모집단에 대한 정보를 모르기 때문에 t-분포를 대신 사용. 3) 가설 검정 귀무가설(영가설). 대립가설(우리가 원하는 결과 보통). 1종 오류 : 귀무가설이 맞았는데 기각하는 것. 2종 오류 : 귀무가설이.. 2024. 1. 25. 내배캠 TIL 26일차 1. 데이터 분석 과제 1) 날짜 전처리 log_date col을 pd.to_datetime 으로 그냥 사용 시. YY-MM-DD의 구조로 읽어오지 않음. df.log_date = pd.to_datetime(df.log_date, format='%y-%m-%d') 위와 같이 format 인수를 추가해줘야 했다. condition = (df['log_date'] >= '2019-02-01') & (df['log_date'] 2024. 1. 24. 내배캠 TIL 25일차 1. 통계학 기초 강의 1) 평균 (1) 평균의 종류 ① 산술평균 : 일반적으로 생각하는 평균 = (a + b) / 2 아래 평균은 시간의 흐름에 따른 변화량의 평균 산출. ② 기하평균 : 비율의 평균 = (ab) ** (1/2) - 숫자들의 로그값에 대해 산술평균을 구한 뒤, 지수 함수를 취한 것과 같다. ex) 연평균수익률 ③ 조화평균 : 값의 평균 = 2(a + b) / ab - 역수의 산술평균을 구해 다시 역수 취하기. ex) 주행거리를 모를 때의 평균 속력 구하기. ④ 로그평균 : 각 관측치를 자연로그변환한 뒤 산술평균을 집계. = (1/n) * ∑ ln(Xi) - 이상치와 왜도에 강건 - 이는 로그변환이 preprocessing에서의 scaling이기 때문. ⑤ 절삭평균 : 상/하위 데이터를 .. 2024. 1. 23. 이전 1 다음 반응형