본문 바로가기
반응형

전체 글163

[Discussion] 성능이 비슷한 모델들 중 최적 모델은 어떻게 선택할 것인가? 오늘도 토론에 올라온 개념을 정리해 보려고한다. If several models of almost-equal predictive quality are evaluated on the same set of validation data in order to select the model that performs best, is it likely that the truly best-predictive model will be chosen? 여러 모델 중에서 가장 성능이 좋은 모델을 고를 때, 우리는 가장 좋은 모델을 선택하고 있다고 확신할 수 있을까?좀더 구체적으로 주제에 대해서 말해보자면여러 모델이 비슷한 성능을 보일 때, 특정 모델이 검증 데이터에서 최고 성능을 보인건 단순히 운이 좋았을 수도 있다 라는 이.. 2025. 1. 20.
[DataModeling] Clustering 그리고 Distance Norms...... Week 공부도 어느정도 끝나간다! 아니지 끝은 없지 Clustering?정의:clustering은 데이터 포인트들을 서로 비슷한 속성을 기준으로 그룹으로 묶는 학습의 방법이다.Clustering의 목표는 동질적 cluster를 만들어내는 것 이다.Cluster 내 데이터는 서로 비슷하고, 다른 cluster간에는 차이가 뚜렷 해야한다.활용:고객 세분화(마케팅)이미지 분류이상 탐지대표적인 알고리즘K-MeansHierarchical ClusteringDBSCANDistance Norms(거리 규범)거리(norm)는 두 점 사이의 유사성 또는 차이를 측정하는 기준이다.주로 Clustering에서 데이터 포인트 간의 거리를 계산하는 데 사용된다.Euclidean Distance, 2-norm정의: 두 점 사이.. 2025. 1. 15.
[DataModeling] 데이터 검증, 분할 벌써 Week2다 뿌애앵  데이터 검증(Validation)모델이 데이터를 제대로 학습했는지, 새로운 데이터에 대해 잘 일반화할 수 있는지 확인하는 과정이다.목적: 과적합(overfitting)이나 과소적합(underfitting)을 방지하고 모델 성능을 평가 하기 위해 사용된다.검증 데이터: 학습에 사용되지 않는 데이터를 통해 모델이 얼마나 잘 일반화되는지 측정한다.⚠️과적합(overftting)과 과소적합(underfitting)은 머신러닝 모델이 데이터를 학습하는 과정에서 발생할 수 있는 대표적인 문제이다.과적합(Overfitting)정의:모델이 훈련 데이터에 지나치게 적합하여 학습 데이터는 높은 성능을 보이지만, 새로운 데이터(테스트 데이터)에서는 성능이 저하되는 현상이다.특징:- 훈련 데이터에서.. 2025. 1. 15.
[Troubleshooting] #2 JPA의 동작과 WARN 레벨 로그 수정 오늘은 아무것도 설정하지 않고 유저 회원 가입 및 유저 관련한 개발을 하였고 하고있따....문제:2025-01-14T20:39:46.012+09:00 WARN 27560 --- [console-service] [ main] org.hibernate.mapping.RootClass : HHH000038: Composite-id class does not override equals(): cohttp://m.lima.consoleservice.domain.repository.entity.UserCredentials2025-01-14T20:39:46.013+09:00 WARN 27560 --- [console-service] [ main] org.hibe.. 2025. 1. 14.
[Discussion] KNN(K-Nearest Neighbors)알고리즘에서 스케일링(Scaling)이 중요한 이유 week1 에 마지막 토론이다.. 난이제 week1 이끝났는데 week2 는 이미 시작해버렸다 ㅋㅋ 에라이최대한 그래프를 많이 보려고 노력하였따!Why is scaling helpful before using KNN?KNN(K-Nearest Neighbors)알고리즘에서 스케일링(Scaling)이 중요한 이유가 무엇인가? 해당 질문에 대해 공부하기전 확인해야할 부분!KNN은 거리 계산에 의존하여 이웃을 결정한다!데이터의 각 feature가 서로 다른 스케일(단위나 범위)을 가지면, 스케일이 큰 특징이 거리 계산에서 지나치게 큰 영향을 미칠 수 있다.이 문제를 해결하기 위해 스케일링이 필요하다.스케일링(Scaling)?표준화(Standardization): 평균이 0, 분산이 1이 되도록 변환.정규화(No.. 2025. 1. 14.
[Discussion] SVM(Support Verctor Machine)과 KNN(K-Nearest Neighbors) 시험 공부 대비겸 토론에 올라온 주제를 바탕으로 공부를 해보았다! In what sort of situations would SVM be better than KNN (and why), and in what sort of situations would KNN be better than SVM (and why)?  Please think about this yourself, and discuss your own thoughts -- I don't just want someone to do a Google (or DuckDuckGo, etc.) search for an answer!Some possible things to think about:- Think about how data points might.. 2025. 1. 14.
[DataModeling] 회귀분석(Regression Analysis) 회귀 분석을 알고 가야지 시험도 잘 칠수 있겠지? 회귀분석(Regression Analysis)회귀분석은 데이터를 분석해서 특정 변수들(원인)이 결과 변수(결과)에 어떤 영향을 주는지 알아내는 통계 기법이다!"특정 요인들이 결과에 어떤 영향을 미칠까?" 를 알아보기위해 데이터를 기반으로 방정식을 만드는 과정이다!기본 개념  목표: 독립변수(입력)와 종속변수(출력) 사이의 관계를 알아내고, 이를 통해 새로운 데이터를 예측하는 것이 목표다!예시: 집 크기(독립변수)가 집 가격(종속변수)에 어떤 영향을 미치는지 분석!종류단순 회귀(Simple Linear Regression):하나의 원인 변수(독립 변수)가 하나의 결과 변수(종속 변수)에 영향을 미칠 때.예: 거리(Distance)가 시간(Time)에 미치는.. 2025. 1. 14.
[Troubleshooting] #1 Docker로 Elasticsearch node 2개 띄우기 docker로 elk를 2개 띄우려다보니 삽질을 너ㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓ무 많이 했다 하참나 몇시간을 보낸거야문제 #1:포트 충돌로 인하여 아래 에러가 나오면서 elasticsearch가 실행되지 않음.Error response from daemon: Ports are not available: exposing port TCP 0.0.0.0:9200 -> 0.0.0.0:0: listen tcp 0.0.0.0:9200: bind: An attempt was made to access a socket in a way forbidden by its access permissions. 윈도우에서 elasticsearch 포트인 9200으로 서비스가 떠있는게 있는지 확인하였지만 아무것도 뜨지 않았음...netst.. 2025. 1. 13.
[Discussion] Scaling이 적합한 상황과 Standardization이 적합한 상황 시험 공부를 위해 두번째 토론주제도 공부해보자..! 하하하하핳하하하ㅏ하하ㅏㅏ 기쁘다 Give examples of some situations where would you suggest scaling (where there are set minimum and maximum possible values) and some where you would suggest standardization (where, as a normal distribution, there isn't a set minimum and maximum possible value).  [Note: the terms "scaling" and "standardization" are unfortunately not standardized thems.. 2025. 1. 13.
반응형