본문 바로가기
TIL

내배캠 TIL 30일차

by ColorConeHead 2024. 1. 30.
반응형

1. 머신러닝 강의

1) 데이터 수집


(1) 회사에 있는 거.

(2) 다운받기.
     - csv
     - API 이용 : pd.read_json 등.
     - 크롤링 : requests, BeautifulSoup(후자 방법은 별로 안 좋아함) .

 

 

2) 탐색적 데이터 분석 (EDA)


(1) 시각화를 통한 EDA - matplotlib, seaborn.

(2) 비지도학습을 통한 EDA : 지도학습할 건덕지를 찾기 위해 비지도학습을 하기도 함.

 

 

 

3) 데이터 전처리


EDA를 통해 전처리 방법을 고안할 것.

(1) 범주형 데이터 : 최빈값 대치 - drona(), fillna()
                                                   - sklearn.impute.SimpleImputer     : 통계량으로 대치.
                                                   - sklearn.impute.IterativeImputer   : 다변량대치(회귀 대치).
                                                   - sklearn.impute.KNNImputer        : 최근접이웃 알고리즘 대치.

(2) 범주형 데이터 : 인코딩.
     회귀식에 넣으려면 숫자여야 하니까 바꿔줘야 함.

     ① 레이블 인코딩
          encoder = sklearn.preprocessing.LabelEncoder()

          보통 위와 같이 객체화하고 씀. 그 메서드로는.

          fit(col)
          transform(col)
          fit_transform(col)
          inverse_transform(col)

     ② 원 핫 인코딩
          벡터에 해당하는 곳에만 불빛이 들어오는 거 같다 해서 원 핫!

          pd.get_dummies() : 요거는 벡터가 아닌 칼럼을 많이 생성하는 것으로 알고 있음.
          sklearn.preprocessing.OneHotEncoder() : 얘가 벡터로 해주는 애.


(3) 수치형 데이터 : 스캐일링
     무대 스캐일이 크네 어쩌네 하는 바로 그 스캐일.
     스캐일링 또한 객체화해서 사용한다
     - sklearn.preprocessing.StandardScaler() : 표준화(z)
     - sklearn.preprocessing.MinMaxScaler() : 정규화, 이상치의 영향 많이 받음.
                                                                        (시그모이드가 생각남).
     - sklearn.preprocessing.RobustScaler() : 로버스트라는 말답게 이상치에 강함.
                                                                       근데 잘 안 씀.
빅분기 준비할 때 공부했던 내용들이
조금씩 생각나서 좋았다.
반응형

'TIL' 카테고리의 다른 글

내배캠 TIL 32일차  (0) 2024.02.01
내배캠 TIL 31일차  (0) 2024.01.31
내배캠 TIL 29일차  (0) 2024.01.29
내배캠 TIL 28일차  (0) 2024.01.26
내배캠 TIL 27일차  (1) 2024.01.25