본문 바로가기
반응형

public void static main/AI16

[DataModeling] 데이터 검증, 분할 벌써 Week2다 뿌애앵  데이터 검증(Validation)모델이 데이터를 제대로 학습했는지, 새로운 데이터에 대해 잘 일반화할 수 있는지 확인하는 과정이다.목적: 과적합(overfitting)이나 과소적합(underfitting)을 방지하고 모델 성능을 평가 하기 위해 사용된다.검증 데이터: 학습에 사용되지 않는 데이터를 통해 모델이 얼마나 잘 일반화되는지 측정한다.⚠️과적합(overftting)과 과소적합(underfitting)은 머신러닝 모델이 데이터를 학습하는 과정에서 발생할 수 있는 대표적인 문제이다.과적합(Overfitting)정의:모델이 훈련 데이터에 지나치게 적합하여 학습 데이터는 높은 성능을 보이지만, 새로운 데이터(테스트 데이터)에서는 성능이 저하되는 현상이다.특징:- 훈련 데이터에서.. 2025. 1. 15.
[Discussion] KNN(K-Nearest Neighbors)알고리즘에서 스케일링(Scaling)이 중요한 이유 week1 에 마지막 토론이다.. 난이제 week1 이끝났는데 week2 는 이미 시작해버렸다 ㅋㅋ 에라이최대한 그래프를 많이 보려고 노력하였따!Why is scaling helpful before using KNN?KNN(K-Nearest Neighbors)알고리즘에서 스케일링(Scaling)이 중요한 이유가 무엇인가? 해당 질문에 대해 공부하기전 확인해야할 부분!KNN은 거리 계산에 의존하여 이웃을 결정한다!데이터의 각 feature가 서로 다른 스케일(단위나 범위)을 가지면, 스케일이 큰 특징이 거리 계산에서 지나치게 큰 영향을 미칠 수 있다.이 문제를 해결하기 위해 스케일링이 필요하다.스케일링(Scaling)?표준화(Standardization): 평균이 0, 분산이 1이 되도록 변환.정규화(No.. 2025. 1. 14.
[Discussion] SVM(Support Verctor Machine)과 KNN(K-Nearest Neighbors) 시험 공부 대비겸 토론에 올라온 주제를 바탕으로 공부를 해보았다! In what sort of situations would SVM be better than KNN (and why), and in what sort of situations would KNN be better than SVM (and why)?  Please think about this yourself, and discuss your own thoughts -- I don't just want someone to do a Google (or DuckDuckGo, etc.) search for an answer!Some possible things to think about:- Think about how data points might.. 2025. 1. 14.
[DataModeling] 회귀분석(Regression Analysis) 회귀 분석을 알고 가야지 시험도 잘 칠수 있겠지? 회귀분석(Regression Analysis)회귀분석은 데이터를 분석해서 특정 변수들(원인)이 결과 변수(결과)에 어떤 영향을 주는지 알아내는 통계 기법이다!"특정 요인들이 결과에 어떤 영향을 미칠까?" 를 알아보기위해 데이터를 기반으로 방정식을 만드는 과정이다!기본 개념  목표: 독립변수(입력)와 종속변수(출력) 사이의 관계를 알아내고, 이를 통해 새로운 데이터를 예측하는 것이 목표다!예시: 집 크기(독립변수)가 집 가격(종속변수)에 어떤 영향을 미치는지 분석!종류단순 회귀(Simple Linear Regression):하나의 원인 변수(독립 변수)가 하나의 결과 변수(종속 변수)에 영향을 미칠 때.예: 거리(Distance)가 시간(Time)에 미치는.. 2025. 1. 14.
[Discussion] Scaling이 적합한 상황과 Standardization이 적합한 상황 시험 공부를 위해 두번째 토론주제도 공부해보자..! 하하하하핳하하하ㅏ하하ㅏㅏ 기쁘다 Give examples of some situations where would you suggest scaling (where there are set minimum and maximum possible values) and some where you would suggest standardization (where, as a normal distribution, there isn't a set minimum and maximum possible value).  [Note: the terms "scaling" and "standardization" are unfortunately not standardized thems.. 2025. 1. 13.
[Discussion] SVM은 왜 larger margin을 선호할까? 토론장에 올라온 질문이다... 공부할겸 정리해보았다!Why do we prefer a larger margin in hard-classification SVM?  (Among other reasons, think about the correctness and certainty of data.)  What about in a soft-classification setting: what's the benefit of a bigger margin (possibly with more error in classifying your known data) vs. a smaller margin (possibly with less error in classifying your known data), and what's .. 2025. 1. 12.
[DataModeling] Week01-데이터 모델링 기본 용어 및 개념 하... 이제 수업 시작이구나........ 너모너모 공부할께 많다........이 시간만 잘 버텨내면 어제보다 조금 더 아는 사람이 될꺼야!이글은 시험준비를 위한 나만의 학습 내용이다!  분류(Classification)데이터를 "예/아니오" 또는 다중 카테고리로 나누는 작업을 의미한다.예시: 대출 승인, 이메일 필터링, 질병 탐지 등.소득, 신용 점수와 같은 데이터 속성을 이용하여 새로운 데이터를 분류할 모델을 만든다.그래프에서는 축에 속성을 배치하고, 선으로 카테고리를 구분한다. (파란색은 승인, 빨간색은 거절)Classifier 로 학습을 시켜준 다음(이색은 red, green, blue다) 학습된 클래스로만 대답을 하는 것을 Classification이다.Regresstion(회귀): 사람의 몸.. 2025. 1. 10.
반응형