반응형 전체 글139 [Kafka] 카프카를 공부해보자 kafka는 무엇일까? 왜 쓸까? 어떻게 동작할까? 좀 딥하게 알아보자!KAFKA카프카는 분산형 스트리밍 플랫폼으로, 대용량의 실시간 데이터 스트림을 처리하는 데 특화된 오픈소스 솔루션이다.카프카는 주로 데이터 파이프라인 구축, 이벤트 스트리밍, 실시간 데이터 피드 처리에 사용된다.주요개념토픽(Topic)카프카에서 데이터가 저장되는 주제를 의미한다.토픽은 데이터의 카테고리를 나타내며, 데이터 스트림은 하나 이상의 토픽에 분배 된다.브로커(Broker)카프카 클러스터를 구성하는 각 서버를 브로커 라고 한다.각 브로커는 데이터를 저장하고 클라이언트 간 통신을 관리한다.프로듀서(Producer)데이터를 생산하고 카프카 토픽에 데이터를 전송하는 클라이언트이다.여러 토픽으로 데이터를 보낼 수 있다.컨슈머(Cons.. 2025. 1. 24. [Discussion] 테스트 데이터의 모델 성능 토론 오늘도 공부를 위해서 토론에 올라온 주제로 공부해본다...!Suppose you've run a bunch of models on validation data and you've picked the one that does best. Then you use test data to estimate how good that model is....a. Why is it likely that the goodness estimate from the test data isn't as good as the validation data suggests?...b. What if you run all of the models on the test data, and a different one looks best; sho.. 2025. 1. 24. 비동기와 논블로킹 논블로킹.........비동기............왜 생각이 안났을까...... 정리해본다.비동기(Asynchronous)정의:작업이 시작된 후 결과를 기다리지 않고, 호출자가 다른 작업을 계속 수행할 수 있는 방식 이다.작업 완료는 콜백, Future, Promise 등을 통해 통보 받는다.특징:호출자가 작업의 완료 여부를 직접 기다리지 않는다.작업이 완료되었을 때만 응답을 받는다.예제:이메일 전송 요청 후 바로 다음 코드 실행, 실제 전송 완료 여부는 나중에 콜백으로 알림.비동기의 동작 방법비동기는 일반적으로 이벤트 루프나 스레드 풀을 사용하여 작동한다.작업 요청호출자가 비동기 작업을 요청한다.요청은 즉시 반환되며, 호출자는 작업 완료 여부와 관계 없이 다른 작업을 계속할 수 있다.작업 처리작업은 백.. 2025. 1. 23. [Discussion] 성능이 비슷한 모델들 중 최적 모델은 어떻게 선택할 것인가? 오늘도 토론에 올라온 개념을 정리해 보려고한다. If several models of almost-equal predictive quality are evaluated on the same set of validation data in order to select the model that performs best, is it likely that the truly best-predictive model will be chosen? 여러 모델 중에서 가장 성능이 좋은 모델을 고를 때, 우리는 가장 좋은 모델을 선택하고 있다고 확신할 수 있을까?좀더 구체적으로 주제에 대해서 말해보자면여러 모델이 비슷한 성능을 보일 때, 특정 모델이 검증 데이터에서 최고 성능을 보인건 단순히 운이 좋았을 수도 있다 라는 이.. 2025. 1. 20. [DataModeling] Clustering 그리고 Distance Norms...... Week 공부도 어느정도 끝나간다! 아니지 끝은 없지 Clustering?정의:clustering은 데이터 포인트들을 서로 비슷한 속성을 기준으로 그룹으로 묶는 학습의 방법이다.Clustering의 목표는 동질적 cluster를 만들어내는 것 이다.Cluster 내 데이터는 서로 비슷하고, 다른 cluster간에는 차이가 뚜렷 해야한다.활용:고객 세분화(마케팅)이미지 분류이상 탐지대표적인 알고리즘K-MeansHierarchical ClusteringDBSCANDistance Norms(거리 규범)거리(norm)는 두 점 사이의 유사성 또는 차이를 측정하는 기준이다.주로 Clustering에서 데이터 포인트 간의 거리를 계산하는 데 사용된다.Euclidean Distance, 2-norm정의: 두 점 사이.. 2025. 1. 15. [DataModeling] 데이터 검증, 분할 벌써 Week2다 뿌애앵 데이터 검증(Validation)모델이 데이터를 제대로 학습했는지, 새로운 데이터에 대해 잘 일반화할 수 있는지 확인하는 과정이다.목적: 과적합(overfitting)이나 과소적합(underfitting)을 방지하고 모델 성능을 평가 하기 위해 사용된다.검증 데이터: 학습에 사용되지 않는 데이터를 통해 모델이 얼마나 잘 일반화되는지 측정한다.⚠️과적합(overftting)과 과소적합(underfitting)은 머신러닝 모델이 데이터를 학습하는 과정에서 발생할 수 있는 대표적인 문제이다.과적합(Overfitting)정의:모델이 훈련 데이터에 지나치게 적합하여 학습 데이터는 높은 성능을 보이지만, 새로운 데이터(테스트 데이터)에서는 성능이 저하되는 현상이다.특징:- 훈련 데이터에서.. 2025. 1. 15. [Troubleshooting] #2 JPA의 동작과 WARN 레벨 로그 수정 오늘은 아무것도 설정하지 않고 유저 회원 가입 및 유저 관련한 개발을 하였고 하고있따....문제:2025-01-14T20:39:46.012+09:00 WARN 27560 --- [console-service] [ main] org.hibernate.mapping.RootClass : HHH000038: Composite-id class does not override equals(): cohttp://m.lima.consoleservice.domain.repository.entity.UserCredentials2025-01-14T20:39:46.013+09:00 WARN 27560 --- [console-service] [ main] org.hibe.. 2025. 1. 14. [Discussion] KNN(K-Nearest Neighbors)알고리즘에서 스케일링(Scaling)이 중요한 이유 week1 에 마지막 토론이다.. 난이제 week1 이끝났는데 week2 는 이미 시작해버렸다 ㅋㅋ 에라이최대한 그래프를 많이 보려고 노력하였따!Why is scaling helpful before using KNN?KNN(K-Nearest Neighbors)알고리즘에서 스케일링(Scaling)이 중요한 이유가 무엇인가? 해당 질문에 대해 공부하기전 확인해야할 부분!KNN은 거리 계산에 의존하여 이웃을 결정한다!데이터의 각 feature가 서로 다른 스케일(단위나 범위)을 가지면, 스케일이 큰 특징이 거리 계산에서 지나치게 큰 영향을 미칠 수 있다.이 문제를 해결하기 위해 스케일링이 필요하다.스케일링(Scaling)?표준화(Standardization): 평균이 0, 분산이 1이 되도록 변환.정규화(No.. 2025. 1. 14. [Discussion] SVM(Support Verctor Machine)과 KNN(K-Nearest Neighbors) 시험 공부 대비겸 토론에 올라온 주제를 바탕으로 공부를 해보았다! In what sort of situations would SVM be better than KNN (and why), and in what sort of situations would KNN be better than SVM (and why)? Please think about this yourself, and discuss your own thoughts -- I don't just want someone to do a Google (or DuckDuckGo, etc.) search for an answer!Some possible things to think about:- Think about how data points might.. 2025. 1. 14. 이전 1 2 3 4 5 ··· 16 다음 반응형