반응형
1. 머신러닝 강의
1) 데이터 수집
(1) 회사에 있는 거.
(2) 다운받기.
- csv
- API 이용 : pd.read_json 등.
- 크롤링 : requests, BeautifulSoup(후자 방법은 별로 안 좋아함) .
2) 탐색적 데이터 분석 (EDA)
(1) 시각화를 통한 EDA - matplotlib, seaborn.
(2) 비지도학습을 통한 EDA : 지도학습할 건덕지를 찾기 위해 비지도학습을 하기도 함.
3) 데이터 전처리
EDA를 통해 전처리 방법을 고안할 것.
(1) 범주형 데이터 : 최빈값 대치 - drona(), fillna()
- sklearn.impute.SimpleImputer : 통계량으로 대치.
- sklearn.impute.IterativeImputer : 다변량대치(회귀 대치).
- sklearn.impute.KNNImputer : 최근접이웃 알고리즘 대치.
(2) 범주형 데이터 : 인코딩.
회귀식에 넣으려면 숫자여야 하니까 바꿔줘야 함.
① 레이블 인코딩
encoder = sklearn.preprocessing.LabelEncoder()
보통 위와 같이 객체화하고 씀. 그 메서드로는.
fit(col)
transform(col)
fit_transform(col)
inverse_transform(col)
② 원 핫 인코딩
벡터에 해당하는 곳에만 불빛이 들어오는 거 같다 해서 원 핫!
pd.get_dummies() : 요거는 벡터가 아닌 칼럼을 많이 생성하는 것으로 알고 있음.
sklearn.preprocessing.OneHotEncoder() : 얘가 벡터로 해주는 애.
(3) 수치형 데이터 : 스캐일링
무대 스캐일이 크네 어쩌네 하는 바로 그 스캐일.
스캐일링 또한 객체화해서 사용한다
- sklearn.preprocessing.StandardScaler() : 표준화(z)
- sklearn.preprocessing.MinMaxScaler() : 정규화, 이상치의 영향 많이 받음.
(시그모이드가 생각남).
- sklearn.preprocessing.RobustScaler() : 로버스트라는 말답게 이상치에 강함.
근데 잘 안 씀.
빅분기 준비할 때 공부했던 내용들이
조금씩 생각나서 좋았다.
반응형
'TIL' 카테고리의 다른 글
내배캠 TIL 32일차 (0) | 2024.02.01 |
---|---|
내배캠 TIL 31일차 (0) | 2024.01.31 |
내배캠 TIL 29일차 (0) | 2024.01.29 |
내배캠 TIL 28일차 (0) | 2024.01.26 |
내배캠 TIL 27일차 (1) | 2024.01.25 |