public void static main/AI
[AI] 챕터04 - 특징과 레이블
햄리뮤
2025. 7. 17. 21:17
반응형
공부할 챕터
챕터 | 주제 | 간단 설명 |
1 | 머신러닝이란 무엇인가 | 머신러닝의 정의, 동작 원리, AI와의 관계 |
2 | 머신러닝의 분류 | 지도학습, 비지도학습, 강화학습의 차이 |
3 | 데이터와 전처리 | 데이터가 왜 중요한가, 어떻게 다듬는가 |
4 | 특징(Feature)과 레이블(Label) | 입력과 출력의 개념, 특징 추출 |
5 | 학습과 예측 | 모델 훈련(training), 예측(predict)의 의미 |
6 | 성능 평가 | 정확도, 정밀도, 재현율, F1 Score 등 |
7 | 대표 알고리즘 이해 | 회귀, 분류, 군집 등 알고리즘 소개 |
8 | 과적합과 일반화 | 학습을 너무 많이/적게 했을 때 문제 |
9 | 실습과 프로젝트 | 간단한 실전 예제, 모델 만들기 |
머신러닝에서 입력과 출력은 무엇일까?
- Feature(특징): 입력값, 머신러닝이 보고 학습하는 데이터
- 예: 키, 몸무게, 나이, 지역 등
- Label(레이블): 출력값, 예특하고자 하는 목표
- 예: 이 사람은 당뇨병 환자인가? → Yes(1) or No(0)
Feature(특징)
머신러닝 모델이 패턴을 학습하기 위해 사용하는 입력 변수
Feature의 종류
특징 유형 | 예시 | 설명 |
수치형 (Numeric) | 키, 몸무게 | 정규화/표준화 필요 |
범주형 (Categorical) | 성별, 지역 | 인코딩 필요 |
텍스트형 (Text) | 리뷰 내용 | 벡터화 필요 |
날짜형(Date/Time) | 등록일 | 연도/월/요일로 변환 가능 |
좋은 Feature란?
기준 | 설명 |
정보량 | Label 예측에 영향을 많이 줘야함 |
중복 없음 | 다른 특징과 너무 유사하면 무의미 |
적절한 범위 | 극단값(outlier)이 없어야함 |
누락 없음 | 결측치가 많으면 문제 발생 가능 |
Feature Selection (특징 선택)
특징이 너무 많으면
- 모델이 과적합(overfitting)되기 쉽다.
- 학습 속도가 느려진다.
- 해석하기도 어려워진다.
쓸모없는 feature를 제거하는 과정
- 상관계수 기반 선택: label과 상관관계가 높은 것만 남김
- 정보이득(Information Gain): 결정트리 기반 중요도 평가
- L1 Regularization: 자동으로 중요도 낮은 Feature 가중치를 0으로 만듦
수치형 데이터 처리
수치형 특징은 반드시 정규화(Normlization) 또는 표준화(Standardzation) 해줘야 모델이 잘 학습할 수 있다.
- MinMaxScaler: 0 - 1로 맞추는 정규화
- StandardScaler: 평균 0, 표준편차 1로 맞추는 표준
Label (정답값 또는 목표값)
모델이 예측하려는 대상 변수
예시
- 이메일 분류: 스팸 여부(1 or 0)
- 이미지 인식: 고양이인지 강아지인지
- 가격 예측: 집값, 주가 등 숫자 값
특징 엔지니어링(Feature Engineering)
원시 데이터를 가지고 모델이 더 잘 학습할 수 있게 특징을 가공/추출하는 직
Features and Labels in Supervised Learning: A Practical Approach - GeeksforGeeks
Your All-in-One Learning Portal: GeeksforGeeks is a comprehensive educational platform that empowers learners across domains-spanning computer science and programming, school education, upskilling, commerce, software tools, competitive exams, and more.
www.geeksforgeeks.org
** 그냥 하루하루 개인 공부한 것을 끄적 거리는 공간입니다.
이곳 저곳에서 구글링한 것과 강의 들은 내용이 정리가 되었습니다.
그림들은 그림밑에 출처표시를 해놓았습니다.
문제가 될시 말씀해주시면 해당 부분은 삭제 하도록하겠습니다. **
반응형