ML 3

ML/ 데이터 전처리 방법

훈련 세트와 체스트 세트르 사이킷런에서 제공하는 train_test_split() 함수로 세련되게 나누어 보겠다.from sklearn.model_selection import train_test_splittrain_input, test_input, train_target, test_target = train_test_split(fish_data, fish_target, stratify= fish_target, random_state=42)샘플링 편향이 일어나지 않게 하기 위해서 stratify 변수에 타겟 데이터를 넣어주면 된다. 이제 데이터를 훈련시키고, 길이 25에 무게 150인 고기를 예측(predict) 해본다. ( 도미가 나와야함 ! ) 어라? 근데 해보면 빙어가 나온다. 왜그럴까? kneig..

ML 18:27:20

ML/ 훈련 세트와 테스트 세트 분리

훈련세트는 훈련할 때, 테스트 세트는 훈련세트를 테스트할 때 사용해야 한다. 앞서 만든 fish_data 배열은 중첩배열이다.print(fish_data[4])를 출력하면 다섯번째 샘플인 [29.0, 430.0] 이 나오게 된다. 샘플링 편향을 방지하기 위해 훈련 데이터와 테스트 데이터에는 샘플들이 골고루 섞여 있어야 한다. 이를 위해 numpy 라이브러리가 도입된다.import numpy as npinput_arr = np.array(fish_data)target_arr = np.array(fish_target)넘파이는 배열의 차원을 구분하기 쉽도록 행과 열을 가지런히 출력해준다. shape 속성으로 넘파이의 샘플, 특성 수를 쉽게 알 수 있다.print(input_arr.shape)(49,2)가 출력..

ML 16:36:40