본문 바로가기
public void static main/AI

[Discussion] KNN(K-Nearest Neighbors)알고리즘에서 스케일링(Scaling)이 중요한 이유

by 햄리뮤 2025. 1. 14.
반응형

week1 에 마지막 토론이다.. 난이제 week1 이끝났는데 week2 는 이미 시작해버렸다 ㅋㅋ 에라이

최대한 그래프를 많이 보려고 노력하였따!

https://easysell.in/?j=86952105850

Why is scaling helpful before using KNN?

KNN(K-Nearest Neighbors)알고리즘에서 스케일링(Scaling)이 중요한 이유가 무엇인가?

 해당 질문에 대해 공부하기전 확인해야할 부분!

  1. KNN은 거리 계산에 의존하여 이웃을 결정한다!
  2. 데이터의 각 feature가 서로 다른 스케일(단위나 범위)을 가지면, 스케일이 큰 특징이 거리 계산에서 지나치게 큰 영향을 미칠 수 있다.
  3. 이 문제를 해결하기 위해 스케일링이 필요하다.

스케일링(Scaling)?

https://www.linkedin.com/pulse/feature-scaling-shubham-patil/

  • 표준화(Standardization): 평균이 0, 분산이 1이 되도록 변환.
  • 정규화(Normalisation): 데이터를 0 ~ 1 사이의 범위로 변환.

스케일링이 필요한 이유

https://medium.com/@Coursesteach/supervised-learning-with-scikit-learn-part-10-centering-and-scaling-08c914162f81

  1. Features의 공정한 기여(Fair Contribution of Features)
    • 스케일 큰 특징(수입이 100,000 ~ 1,000,000)이 작은 특징(나이: 1~100) 보다 거리 계산에서 더 큰 영향을 미친다.
    • 스케일링은 모든 특징이 거리 계산에 동등하게 기여하도록 만든다.
  2. 모델의 정확도 향상(Improved Accuracy)
    • 스케일 차이로 인해 중요한 특징이 무시되거나, 덜 중요한 특징이 결과에 큰 영향을 미칠 수 있다.
    • 스케일링은 이러한 문제를 방지하고 예측 정확도를 높인다.
  3. 거리 계산의 일관성 유지(Consistent Results Acrosss Metrics)
    • KNN은 유클리드 거리, 맨해튼 거리 등 여러 거리 지표를 사용한다.
    • 스케일링은 어떤 거리 지표를 사용해도 일관된 결과를 보장한다!

정리

https://www.youtube.com/watch?v=XpOBSaktb6s

스케일링은 KNN에서 거리 계산의 공정성과 정확성을 보장하기 위해 필수적이다.

  • 정규화와 표준화는 데이터 스케일 차이를 줄여, 모든 특징이 동등하게 기여하도록 조정한다.
  • KNN 모델의 예측 성능과 신뢰성을 높일 수 있다.

개념은 알겠는데 하... 시험에 어케 나오려나 걱정이다.

 

 

 

** 그냥 하루하루 개인 공부한 것을 끄적 거리는 공간입니다.

이곳 저곳에서 구글링한 것과 강의 들은 내용이 정리가 되었습니다.

그림들은 그림밑에 출처표시를 해놓았습니다.

문제가 될시 말씀해주시면 해당 부분은 삭제 하도록하겠습니다. **

반응형

댓글