k-최근접이웃 알고리즘과제 (스테픈 2km완료)
오늘은 하루종일 머신러닝 과제 마무리 해야겠네요
오늘 해야할 것이
바로 이것입니다.
과제로 유클리디안 거리를 사용해서 문제를 풀어야하는데
수포자라 그런지 좀이해가 안가는 부분이 나오더군요..
챗선생님 도움을 받아서 풀긴 했으나..
어렵긴 하네요..
특히나 머신러닝은 어떤 형식으로 문제가 제출될지 예상이 안가는 과목이네요
과거 기출문제라도 존재하면 좀 풀어보고 싶으나..
기출문제 자체가 없어서
다른 수업시간의 강의에서 올라온 과제를 좀 보고 대략 저 문제가 나오겠구나 할만한걸 좀 찾아보려 했으나..
과제도 검색이 안되네요 ;;
일단 과제에서 나온 부분이라 아마 100% 이번 시험에 나올것 같아서 정리도 할겸
개념정리좀 하려고 합니다.
근접이웃 분류 알고리즘은 단순무식한 방법이라 볼수있다.
위와 같은 사진에서 중간쯤에 초록색 점이 찍혔다고 가정해보자
중간의 초록색 점은 어느 그룹에 가깝다고 볼수있을까?
그리고 이 가깝다는 개념을 수학적으로 어떻게 표현할까?
KNN 알고리즘(K-최근접이웃 알고리즘)에서는 보통 유클리드 거리로 이 가까움의 개념을 수용한다.
맨위에 사진에 올렸던 계산식인데
K가 몇인지에 따라 결과가 달라질수가 있다.
K값이 작으면 노이즈에 민감해질 수있고.
K값이 데이터의 수 뿐만이 아니라 데이터의 분포 특성에도 의존하게 되므로 주어진 문제에 의존적이라 할 수 있다.
K-최근접이웃 분류기는 주어진 데이터와 학습 데이터간의 거리를 바탕으로 이웃 데이터를 찾는것에서 시작하기 때문에 어떤 거리함수를 이용하느냐에 따라 선택되는 이웃이 달라질 수 있고, 결과적으로 분류 성능에 직접적인 영향을 주게된다.
거리함수는 가장 기본적인 유클리디안 거리함수가 있고 ,...
어떤 거리함수를 사용할지는 주어진 데이터의 특성에 맞춰 비교해보고 목적에 맞게 함수를 선택해야한다,.
이번 과제에서 임의의 X,Y값을 주고 K근접이웃 값을 5로 설정해준 문제를 받았다.
학습 데이터로 X,Y값을 10개정도 받았는데
문제를 풀면서 처음에는 어떻게 진행해야할지 막막했으나..
해당공식에 그냥 다 대입해보니 계산되어 쉽게 해결했다.
머신러닝이 가장 막막하긴 한데...
하.. 열심히 이해해봐야지... 후우
스테픈도완료했다.