반응형 public void static main/AI14 [DataModeling]Change Detection, CUSUM 등등 으아아ㅏ 시험대비 공부를 해봅시다 변화 감지(Change Detection)시스템에서 변화가 발생했는지 확인하는 과정이다. 주로 시계열 데이터를 사용하여 시간에 따른 패턴 변화를 추적하고, 이를 기반으로 변화가 일어났는지 파악한다. 정상 범위를 벗어난 이상치를 찾아내거나, 변화가 중요한 의미를 가질 경우 조치를 취할 수 있도록 돕는다.적용행동 필요 여부 확인기계 유지보수: 기계가 고장이 날 가능성을 예측하고, 이를 미리 파악하여 유지보수 계획을 세울 수 있다.지구 온난화: 기후 변화에 대한 패턴을 추적하여 온난화가 계속되는지 확인하고, 이에 맞는 대처 방안을 모색할 수 있다.판매 추세 분석: 판매 패턴을 분석하여 판매가 급증하거나 급감하는 추세를 파악하고, 이로 인한 전략적 결정을 내릴 수 있다.행동의 .. 2025. 2. 10. [DataModeling] 데이터 준비 부터 이상치 탐지 및 처리까지 데이터 준비의 중요성모델을 학습시키기 전에 데이터를 적절히 처리하지 않으면, 알고리즘이 잘못된 패턴을 학습하거나 성능이 저하될 수 있다.신용 점수(credit score): 데이터가 300 ~ 850 범위에서 존재한다면, 특정 값들이 너무 큰 영향을 미칠 수 있다.일일 기온(daily temperature): 같은 섭씨 온도라도 지역마다 다른 영향을 미칠 수 있다.주식 가치(stock price): 주가가 천 단위인 경우와 십 단위인 경우 데이터 범위 차이가 크면 왜곡이 발생할 수 있다.이런 문제들을 해결하기 위해서 데이터를 정규화(normalization)하거나 표준화(standardization) 하는 것이 중요 하다.주요 데이터 준비 문제점데이터를 그대로 사용하면 모델의 성능이 저하될 수 있는 주요.. 2025. 1. 29. [DataModeling] 검증(Validation)과 데이터 분할(Data Split) 앞에서 다뤘지만 조금더 자세히 공부해보았다.검증(Validation)검증은 우리가 만든 모델의 성능이 얼마나 좋은지 평가하는 과정이다.검증을 통해 모델이 데이터를 얼마나 잘 이해했는지 확인할 수 있다.그렇다면 왜 중요할까?분류의 정확도: 분류 문제(예: 스팸 메일 여부)에서 모델이 얼마나 올바르게 분류하는지 확인한다.예측의 정확성: 예측 문제(예 내일의 주가)를 얼마나 정확히 맞추는지 평가한다.결과의 신뢰성: 모델이 새로운 데이터에서도 일관되고 신뢰할 만한 결과를 제공하는지 확인한다.왜 훈련 데이터만 사용하며 안될까?훈련 데이터만 사용해서 모델을 평가하면 실제 성능보다 과대 평가될 가능성이 높다.훈련 데이터에는 두 가지 패턴이 포함됨실제 효과(실제 관계): 데이터에 존재하는 진짜 규칙과 패턴.무작위 효과.. 2025. 1. 27. [Discussion] 분류와 군집화의 근본적인 차이는 무엇일까? 그렇다 오늘도 토론이 올라왔다.What is the fundamental difference between classification and clustering? Give an example of when to use each.분류(Classification)와 군집화(Clustering)의 근본적인 차이는 무엇일까?분류(Classification): 사전에 정의된 클래스(레이블)를 기준으로 데이터를 분류하는 지도학습(Supervised Learning)방법.군집화(Clustering): 데이터가 어떤 그룹에 속하는지 알 수 없을 때 데이터 간 유사성을 바탕으로 그룹을 형성하는 비지도학습(Unsupervised Learning) 방법.분류(Classification)와 군집화(Clustering)을 한.. 2025. 1. 24. [Discussion] 테스트 데이터의 모델 성능 토론 오늘도 공부를 위해서 토론에 올라온 주제로 공부해본다...!Suppose you've run a bunch of models on validation data and you've picked the one that does best. Then you use test data to estimate how good that model is....a. Why is it likely that the goodness estimate from the test data isn't as good as the validation data suggests?...b. What if you run all of the models on the test data, and a different one looks best; sho.. 2025. 1. 24. [Discussion] 성능이 비슷한 모델들 중 최적 모델은 어떻게 선택할 것인가? 오늘도 토론에 올라온 개념을 정리해 보려고한다. If several models of almost-equal predictive quality are evaluated on the same set of validation data in order to select the model that performs best, is it likely that the truly best-predictive model will be chosen? 여러 모델 중에서 가장 성능이 좋은 모델을 고를 때, 우리는 가장 좋은 모델을 선택하고 있다고 확신할 수 있을까?좀더 구체적으로 주제에 대해서 말해보자면여러 모델이 비슷한 성능을 보일 때, 특정 모델이 검증 데이터에서 최고 성능을 보인건 단순히 운이 좋았을 수도 있다 라는 이.. 2025. 1. 20. [DataModeling] Clustering 그리고 Distance Norms...... Week 공부도 어느정도 끝나간다! 아니지 끝은 없지 Clustering?정의:clustering은 데이터 포인트들을 서로 비슷한 속성을 기준으로 그룹으로 묶는 학습의 방법이다.Clustering의 목표는 동질적 cluster를 만들어내는 것 이다.Cluster 내 데이터는 서로 비슷하고, 다른 cluster간에는 차이가 뚜렷 해야한다.활용:고객 세분화(마케팅)이미지 분류이상 탐지대표적인 알고리즘K-MeansHierarchical ClusteringDBSCANDistance Norms(거리 규범)거리(norm)는 두 점 사이의 유사성 또는 차이를 측정하는 기준이다.주로 Clustering에서 데이터 포인트 간의 거리를 계산하는 데 사용된다.Euclidean Distance, 2-norm정의: 두 점 사이.. 2025. 1. 15. [DataModeling] 데이터 검증, 분할 벌써 Week2다 뿌애앵 데이터 검증(Validation)모델이 데이터를 제대로 학습했는지, 새로운 데이터에 대해 잘 일반화할 수 있는지 확인하는 과정이다.목적: 과적합(overfitting)이나 과소적합(underfitting)을 방지하고 모델 성능을 평가 하기 위해 사용된다.검증 데이터: 학습에 사용되지 않는 데이터를 통해 모델이 얼마나 잘 일반화되는지 측정한다.⚠️과적합(overftting)과 과소적합(underfitting)은 머신러닝 모델이 데이터를 학습하는 과정에서 발생할 수 있는 대표적인 문제이다.과적합(Overfitting)정의:모델이 훈련 데이터에 지나치게 적합하여 학습 데이터는 높은 성능을 보이지만, 새로운 데이터(테스트 데이터)에서는 성능이 저하되는 현상이다.특징:- 훈련 데이터에서.. 2025. 1. 15. [Discussion] KNN(K-Nearest Neighbors)알고리즘에서 스케일링(Scaling)이 중요한 이유 week1 에 마지막 토론이다.. 난이제 week1 이끝났는데 week2 는 이미 시작해버렸다 ㅋㅋ 에라이최대한 그래프를 많이 보려고 노력하였따!Why is scaling helpful before using KNN?KNN(K-Nearest Neighbors)알고리즘에서 스케일링(Scaling)이 중요한 이유가 무엇인가? 해당 질문에 대해 공부하기전 확인해야할 부분!KNN은 거리 계산에 의존하여 이웃을 결정한다!데이터의 각 feature가 서로 다른 스케일(단위나 범위)을 가지면, 스케일이 큰 특징이 거리 계산에서 지나치게 큰 영향을 미칠 수 있다.이 문제를 해결하기 위해 스케일링이 필요하다.스케일링(Scaling)?표준화(Standardization): 평균이 0, 분산이 1이 되도록 변환.정규화(No.. 2025. 1. 14. 이전 1 2 다음 반응형