반응형
Feature Scaling

Age와 Salary는 같은 스케일이 아니다.
Age는 27 ~ 50 / Salay는 40k ~ 90k
유클리디언 디스턴스로 오차를 줄여 나가는데,
하나의 변수는 오차가 크고, 하나의 변수는 오차가 작으면,
나중에 오차를 수정할때 편중되게 된다.
따라서 값의 레인지를 맞춰줘야 정확히 트레이닝 된다.

Feature Scaling 2가지 방법
표준화 : 평균을 기준으로 얼마나 떨어져 있느냐? 같은 기준으로 만드는 방법,
음수도 존재, 데이터의 최대최소값 모를때 사용.
정규화 : 0 ~ 1 사이로 맞추는 것. 데이터의 위치 비교가 가능, 데이터의 최대최소값 알떄 사용

import
from sklearn.preprocessing import StandardScaler, MinMaxScaler

Feature Scaling도 X따로, y따로 해준다.
s_scaler = StandardScaler()
s_scaler.fit_transform(X)

m_scaler = MinMaxScaler()
m_scaler.fit_transform(X)

y도 피쳐스케일링을 해야하는데

이미 0과 1로만 데이터가 구성되어 있으면, 피처스케일링을 할 필요가 없다.
Dataset을 Training 용과 Test용으로 나눈다.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( X , y , test_size= 0.2 , random_state= 3)

반응형
'Machine Learning' 카테고리의 다른 글
| Machine Learning - New data Predicting [신규 데이터 예측하기( np.array)] (0) | 2022.05.07 |
|---|---|
| Machine Learning - Multiple Linear Regression(여러개의 수치데이터 예측) (0) | 2022.05.07 |
| Machine Learning - Linear Regression( 수치데이터 예측) (0) | 2022.05.07 |
| Machine Learning - Label Encoding & One Hot Encoding (0) | 2022.05.05 |
| Machin Learning (0) | 2022.05.05 |