본문 바로가기
public void static main/AI

[DataModeling] Clustering 그리고 Distance Norms......

by 햄리뮤 2025. 1. 15.
반응형

Week 공부도 어느정도 끝나간다! 아니지 끝은 없지

https://businessanalystmentor.com/data-modelling-for-business-analysts-training/

 

Clustering?

https://www.linkedin.com/pulse/understanding-clustering-algorithms-key-techniques-bill-palifka-zw8te/

정의:

clustering은 데이터 포인트들을 서로 비슷한 속성을 기준으로 그룹으로 묶는 학습의 방법이다.

  • Clustering의 목표는 동질적 cluster를 만들어내는 것 이다.
  • Cluster 내 데이터는 서로 비슷하고, 다른 cluster간에는 차이가 뚜렷 해야한다.

활용:

  • 고객 세분화(마케팅)
  • 이미지 분류
  • 이상 탐지

대표적인 알고리즘

  • K-Means
  • Hierarchical Clustering
  • DBSCAN

Distance Norms(거리 규범)

거리(norm)는 두 점 사이의 유사성 또는 차이를 측정하는 기준이다.

주로 Clustering에서 데이터 포인트 간의 거리를 계산하는 데 사용된다.

Euclidean Distance, 2-norm

https://www.engati.com/glossary/euclidean-distance

정의: 두 점 사이의 직선 거리(Shortest Straight Line)를 측정한다. 피타고라스의 거리 공식을 사용해서 피타고라스 거리 라고도 불린다.(원점에서 각 벡터의 거리로 정의)

By making use of the Pythagorean formula for distance, Euclidean space (or even any inner product space) would become a metric space. 
...
Due to the fact that it is possible for you to find the Euclidean distance by making use of the coordinate points and the Pythagoras theorem, it is also sometimes referred to as the Pythagorean distance.

Rectilinear Distance, 1-norm (Manhattan Distance)

정의: 두 점 사이를 직선 경로(x축, y축 방향으로 이동)로 이동한 거리를 측정한다. "맨해튼 거리(Manhattan Distance)"라고도 한다.

⚠️맨해튼 거리(Manhattan Distance) 라고 불리는 이유...?
뉴욕의 맨해튼 지구의 도시 구조에서 유래 됐다고 한다.
이유:
맨해튼은 grid 형태의 도로망으로 이루어진 도시여서 자동차나 보행자는 도로를 따라 직선으로만 이동할 수 있길 때문에, 두 지점 사이를 대각선으로 이동하는 것이 불가능 하다. 따라서 한 지점에서 다른 지점으로 이동할 때는 수평거리와 수직거리를 각각 합산한 거리가 실제 이동 거리와 같다.

P-norm (minkowski Distance)

https://www.reddit.com/r/LearningML/comments/xlweox/minkowski_distance_is_a_generalization_of_the/

정의: 유클리드 거리와 맨해튼 거리를 일반화한 거리 척도 이다.

  • p: 거리의 차원을 조절하는 파라미터.
  • p = 1:맨해튼 거리
  • p = 2: 유클리드 거리

Infinity Norm

정의: 두 점 간의 좌표 차이 중 가장 큰 차이를 거리로 간주 한다. "체스판 거리(Chebyshev Distance)" 라고도 한다.


하... 수학 좋아했었는데 오랜만에 하려니까 눈에도 안들어온다.... 이상하다 분명 수학 좋아했는데 왜이렇게 멀어졌지

시험에 계산 하라고 나오면 두손 두발 다 들어야지 뭐

 

 

참고문헌:

https://www.linkedin.com/pulse/understanding-clustering-algorithms-key-techniques-bill-palifka-zw8te/

 

Understanding Clustering Algorithms: Key Techniques and Their Applications

Clustering is a fundamental technique in data science and machine learning that involves grouping a set of objects in such a way that objects in the same group, or cluster, are more similar to each other than to those in other groups. It is an unsupervised

www.linkedin.com

https://www.engati.com/glossary/euclidean-distance

 

Euclidean distance | Engati

Euclidean distance refers to the distance between two points in Euclidean space. It essentially represents the shortest distance between two points.

www.engati.com

 

 

 

 

** 그냥 하루하루 개인 공부한 것을 끄적 거리는 공간입니다.

이곳 저곳에서 구글링한 것과 강의 들은 내용이 정리가 되었습니다.

그림들은 그림밑에 출처표시를 해놓았습니다.

문제가 될시 말씀해주시면 해당 부분은 삭제 하도록하겠습니다. **

반응형

댓글