본문 바로가기
public void static main/AI

[Discussion] Scaling이 적합한 상황과 Standardization이 적합한 상황

by 햄리뮤 2025. 1. 13.
반응형

시험 공부를 위해 두번째 토론주제도 공부해보자..! 하하하하핳하하하ㅏ하하ㅏㅏ 기쁘다

 

https://easysell.in/?j=86952105850

Give examples of some situations where would you suggest scaling (where there are set minimum and maximum possible values) and some where you would suggest standardization (where, as a normal distribution, there isn't a set minimum and maximum possible value).  [Note: the terms "scaling" and "standardization" are unfortunately not standardized themselves!  Some people use "scaling" to refer to a normal distribution, and some people use "standardization" to refer to scaling on an interval.  Unfortunately, there's nothing we can do about that.]

 

 

Scaling이 적합한 상황과 Standardization이 적합한 상황 비교

Scaling

https://medium.com/alliedoffsets/standardization-the-secret-to-better-data-science-fa2cb6b30c01

Scaling(스케일링): 데이터를 특정 범위(예: 0과 1사이 또는 -1과 1 사이)로 변환하는 것을 의미한다. 특히 거리 기반 알고리즘에서 유용하고, 각 피처가 동일한 스케일을 가지도록 보장한다.

 

스케일링이 필요한 상황:

  1. 거리 기반 알고리즘(Distance-based algorithms):
    • k-NN, SVM, PCA, k-means 같은 알고리즘은 거리 계산을 기반으로 해서, 값의 크기 차이로 인해 특정 피처가 결과를 지배하는 것을 방지하기 위해 스케일링이 필요하다.
  2. 값의 범위가 유한할 때(When the range of values is finite):
    • 예를들어서, 나이나 백분율 처럼 특정 범위 내에 항상 존재하는 값을 처리할 때 적합하다.
  3. 상대적 관계를 유지해야 할 때(When preserving relationships is key):
    • 스케일링은 데이터의 상대적인 분포를 유지하면서 특정 범위로 변환한다.

스케일링 사용 예:

  • 이미지 처리에서 픽셀 값(0~255)을 0과 1로 정규화 할때.
  • 소득 데이터를 [0, 1]로 변환해서 인구 간 비교를 단순화 할때.

Standardization

참고 문헌: https://medium.com/alliedoffsets/standardization-the-secret-to-better-data-science-fa2cb6b30c01

https://medium.com/alliedoffsets/standardization-the-secret-to-better-data-science-fa2cb6b30c01

Standardization(표준화): 표준화는 데이터를 평균 0, 표준편차 1로 변환하여 정규 분포를 따르도록 만드는 과정이다. 분산에 민감한 알고리즘에 적합하다.

 

표준화가 필요한 상황:

  1. 피처의 단위가 다를 때(When features have different units):
    • 예: 키(센티미터)와 몸무게(킬로그람)는 단위가 달라서 모델에서 균등하게 기여하도록 표준화가 필요하다.
  2. 정규 분포를 따를 때(For normally distributed data):
    • 로지스틱 회귀, 선형 회귀, 신경망 등은 데이터가 정규 분포에 가까울 때 더 잘 작동한다.
  3. 고정 범위가 없을 때(When there is no fixed range):
    • 주식 가격, 온도 등 자연적인 경계가 없는 데이터의 경우 표준화가 적합하다.

표준화 사용 예:

  • 로지스틱 회귀나 신경망 알로기즘에서 데이터를 준비할 때.
  • 인구 밀도와 면적 크기처럼 단위가 다른 피처를 처리할 때.

토론을 통해서 한번 더 공부하니까 얼추 무슨말인지 알겠다 한 20퍼센트 정도

 

 

** 그냥 하루하루 개인 공부한 것을 끄적 거리는 공간입니다.

이곳 저곳에서 구글링한 것과 강의 들은 내용이 정리가 되었습니다.

그림들은 그림밑에 출처표시를 해놓았습니다.

문제가 될시 말씀해주시면 해당 부분은 삭제 하도록하겠습니다. **

반응형

댓글