본문 바로가기

R programming

지도학습(supervised learning)-KNN : 분류에 대해 (today I learn)

반응형

datacamp에서 배웠던 내용을 정리하고 요약해보는 시간!

 

지도학습에서 분류는 새로운 데이터가 제시되었을 때, 학습한 데이터를 바탕으로 새롭게 제시된 데이터가 어떤 데이터에 해당하는 지 분류하는 것을 말합니다.
지도학습인 까닭은 사전에 정보들을 (인간이) 라벨링해서 구분시켜놓기(정답?을 알려주기) 때문.
반대로 비지도학습은 정답을 안알려줌! 라벨링을 안해줌.
그냥 비슷해보이는 것끼리 묶어두는 것.

datacamp에서 소개된 첫 번째 지도학습: 분류는 표지판을 인식하고 분류하는 작업이다.
많은 자율주행차들이 카메라를 이용해 차량 운행과 관련한 자료를 수집한다.
이 때 조건 중 하나에도 표지판을 이해하고 표지판의 지시에 따라 자동차를 운행하는 것이 하나다.

 

데이터 캠프에서 소개한 방식 중 하나는 표지판을 여러개의 조각으로 나눈 뒤 한 조각에 나타나 있는

색깔별 픽셀 수를 세는 것이다. 이것을 학습해 각 표지판별의 특징을 확보해 새로운 데이터가 제시됐을 때,

그 특징에 대입해 판별한다. 

 

쓰였던 knn 알고리즘이다. 

library(class)

knn알고리즘은 class라는 라이브러리에 있고, 

 

knn(train = , test = , cl = )

위와 같은 함수형태로 사용하고 train에는 학습할 데이터를, test에는 train한 데이터가 얼마나 잘 학습을 했는지

확인할 train과는 같은 variable을 가진 데이터 (하지만 데이터 정보는 다른) 값을 넣고

cl에는 라벨링 데이터를 넣는다.


반응형