public void static main/AI

[AI] 챕터04 - 특징과 레이블

햄리뮤 2025. 7. 17. 21:17
반응형

공부할 챕터

챕터 주제 간단 설명
1 머신러닝이란 무엇인가 머신러닝의 정의, 동작 원리, AI와의 관계
2 머신러닝의 분류 지도학습, 비지도학습, 강화학습의 차이
3 데이터와 전처리 데이터가 왜 중요한가, 어떻게 다듬는가
4 특징(Feature)과 레이블(Label) 입력과 출력의 개념, 특징 추출
5 학습과 예측 모델 훈련(training), 예측(predict)의 의미
6 성능 평가 정확도, 정밀도, 재현율, F1 Score 등
7 대표 알고리즘 이해 회귀, 분류, 군집 등 알고리즘 소개
8 과적합과 일반화 학습을 너무 많이/적게 했을 때 문제
9 실습과 프로젝트 간단한 실전 예제, 모델 만들기

머신러닝에서 입력과 출력은 무엇일까?

  • Feature(특징): 입력값, 머신러닝이 보고 학습하는 데이터 
    • 예: 키, 몸무게, 나이, 지역 등
  • Label(레이블): 출력값, 예특하고자 하는 목표
    • 예: 이 사람은 당뇨병 환자인가? → Yes(1) or No(0)

Feature(특징)

머신러닝 모델이 패턴을 학습하기 위해 사용하는 입력 변수

Feature의 종류

특징 유형 예시 설명
수치형 (Numeric) 키, 몸무게 정규화/표준화 필요
범주형 (Categorical) 성별, 지역 인코딩 필요
텍스트형 (Text) 리뷰 내용 벡터화 필요
날짜형(Date/Time) 등록일 연도/월/요일로 변환 가능

좋은 Feature란?

기준 설명
정보량 Label 예측에 영향을 많이 줘야함
중복 없음 다른 특징과 너무 유사하면 무의미
적절한 범위 극단값(outlier)이 없어야함
누락 없음 결측치가 많으면 문제 발생 가능

Feature Selection (특징 선택)

특징이 너무 많으면

  • 모델이 과적합(overfitting)되기 쉽다.
  • 학습 속도가 느려진다.
  • 해석하기도 어려워진다.

쓸모없는 feature를 제거하는 과정

  • 상관계수 기반 선택: label과 상관관계가 높은 것만 남김
  • 정보이득(Information Gain): 결정트리 기반 중요도 평가
  • L1 Regularization: 자동으로 중요도 낮은 Feature 가중치를 0으로 만듦

수치형 데이터 처리

수치형 특징은 반드시 정규화(Normlization) 또는 표준화(Standardzation) 해줘야 모델이 잘 학습할 수 있다.

  • MinMaxScaler: 0 - 1로 맞추는 정규화
  • StandardScaler: 평균 0, 표준편차 1로 맞추는 표준

Label (정답값 또는 목표값)

모델이 예측하려는 대상 변수

예시

  • 이메일 분류: 스팸 여부(1 or 0)
  • 이미지 인식: 고양이인지 강아지인지
  • 가격 예측: 집값, 주가 등 숫자 값

특징 엔지니어링(Feature Engineering)

원시 데이터를 가지고 모델이 더 잘 학습할 수 있게 특징을 가공/추출하는 직


 

https://www.geeksforgeeks.org/machine-learning/features-and-labels-in-supervised-learning-a-practical-approach/

 

Features and Labels in Supervised Learning: A Practical Approach - GeeksforGeeks

Your All-in-One Learning Portal: GeeksforGeeks is a comprehensive educational platform that empowers learners across domains-spanning computer science and programming, school education, upskilling, commerce, software tools, competitive exams, and more.

www.geeksforgeeks.org

 

 

** 그냥 하루하루 개인 공부한 것을 끄적 거리는 공간입니다.

이곳 저곳에서 구글링한 것과 강의 들은 내용이 정리가 되었습니다.

그림들은 그림밑에 출처표시를 해놓았습니다.

문제가 될시 말씀해주시면 해당 부분은 삭제 하도록하겠습니다. **

반응형