반응형
그렇다 오늘도 토론이 올라왔다.
What is the fundamental difference between classification and clustering? Give an example of when to use each.
분류(Classification)와 군집화(Clustering)의 근본적인 차이는 무엇일까?
- 분류(Classification): 사전에 정의된 클래스(레이블)를 기준으로 데이터를 분류하는 지도학습(Supervised Learning)방법.
- 군집화(Clustering): 데이터가 어떤 그룹에 속하는지 알 수 없을 때 데이터 간 유사성을 바탕으로 그룹을 형성하는 비지도학습(Unsupervised Learning) 방법.
분류(Classification)와 군집화(Clustering)을 한번 더 공부해보자
- 분류(Classification)
- 지도학습(Supervised Learning): 학습 데이터에 레이블(정답)이 포함되어 있음.
- 알고리즘: Logistic Regression, Decision Tree, Random Forest, Support Vector Machine(SVM), Neural Networks 등.
- 결과: 입력 데이터가 사전에 정의된 특정 클래스에 속하도록 예측 한다.
- 사용 사례
- 이메일 스팸 분류 (스팸/정상 메일)
- 암 진단(양성/음성)
- 고객 이탈 예측(이탈/유지)
- 군집화(Clustering)
- 비지도학습(Unsupervised Learning): 학습 데이터에 레이블(정답)이 없음.
- 알고리즘: K-Means, Hierarchical Clustering, DBSCAN 등.
- 결과: 데이터 간 유사성을 기준으로 자동으로 그룹화.
- 사용 사례
- 고객 세분화 (유사한 구매 행동을 가진 고객 군집)
- 이미지 세그멘테이션 (유사한 픽셀 색상/특징 기반 영역 분리)
- 이상 탐지 (정상 데이터와 다른 군집 찾기)
그래서 차이점이 뭔데!?
- 레이블 유무(Label Presence): 분류는 레이블이 있는 데이터로 학습, 군집화는 레이블 없이 학습.
- 결과(Outcome): 분류는 클래스(카테고리) 예측, 군집화는 데이터 간 유사성에 따른 그룹 생성.
예시
- 문제 1: 스팸 이메일 필터링
- 해결법: 분류를 사용하여 이메일을 "스팸" 또는 "정상"으로 분류 한다. 기존에 레이블이 지정된 이메일 데이터로 알고리즘을 학습 시킨다.
- 문제 2: 고객 세분화
- 해결법: 군집화를 사용하여 유사한 구매 패턴을 가진 고객들을 자동으로 그룹화 한다. 고객 행동 데이터를 기반으로 K-Means와 같은 알고리즘을 적용하여 군집을 형성 한다.
오 그렇구나
** 그냥 하루하루 개인 공부한 것을 끄적 거리는 공간입니다.
이곳 저곳에서 구글링한 것과 강의 들은 내용이 정리가 되었습니다.
그림들은 그림밑에 출처표시를 해놓았습니다.
문제가 될시 말씀해주시면 해당 부분은 삭제 하도록하겠습니다. **
반응형
'public void static main > AI' 카테고리의 다른 글
[DataModeling] 데이터 준비 부터 이상치 탐지 및 처리까지 (2) | 2025.01.29 |
---|---|
[DataModeling] 검증(Validation)과 데이터 분할(Data Split) (1) | 2025.01.27 |
[Discussion] 테스트 데이터의 모델 성능 토론 (0) | 2025.01.24 |
[Discussion] 성능이 비슷한 모델들 중 최적 모델은 어떻게 선택할 것인가? (0) | 2025.01.20 |
[DataModeling] Clustering 그리고 Distance Norms...... (0) | 2025.01.15 |
댓글