본문 바로가기
반응형

public void static main91

[Elasticsearch Bible] 1장 소개 ~ 2장 동작과 구조 프로젝트를 하려면 elasticsearch에 대해서 얼추 아는게 아니라 정확히 알고있어야 하지 않겠어?Elasticsearch?검색 엔진단순 텍스트 매칭 검색이 아닌 전문 검색(full-text search)이 가능하고 다양한 종류의 검색 쿼리를 지원한다.검색 엔진이기 때문에 역색인을 사용하여 검색 속도도 매우 빠르다.분산처리데이터를 여러 노드에 분산 저장하며 검색이나 집계 작업 등을 수행할 때도 분산 처리를 지원한다.고가용성 제공클러스터를 구성하고 있는 일부 노드에 장애가 발생해도 복제본 데이터를 이용해 중단 없이 서비스를 지속할 수 있다.엘라스틱서치는 다시 복제본을 만들어 복제본의 개수를 유지하면서 노드 간 데이터의 균형을 자동으로 맞춘다.수평적 확장성새로운 노드에 엘라스틱서치를 설치하여 클러스터에 .. 2025. 1. 29.
[토비의스프링] 1장-오브젝트와 의존관계 와 1장부터 진짜 내용이 너무 많아서 힘들었다......... 책에서 나온 개념들을 쭉 정리해보았다...스프링 프레임 워크스프링 프레임워크는 다양한 엔터프라이즈 애플리케이션을 개발하는 데 필요한 여러 기능을 제공하는 오픈소스 프레임워크이다.IoC, AOP, 트랜잭션 관리, 메시징 등을 지원하여 애플리케이션 개발을 더욱 효율적으로 만들어 준다.빈(bean)스프링에서 빈(bean)은 IoC 컨테이너가 관리하는 객체를 의미한다. 빈은 스프링이 자동으로 생성하고 관리하는 객체로, 종속성 주입(DI) 방식으로 다른 객체에 의존성을 주입하거나, 특정 역할을 담당하는 객체로 사용된다. 스프링의 핵심 기능 중 하나는 객체를 IoC(제어의 역전) 방식으로 관리한다는 점이다. 객체간의 관계를 설정하고, 객체 생명주기 등을.. 2025. 1. 28.
[DataModeling] 검증(Validation)과 데이터 분할(Data Split) 앞에서 다뤘지만 조금더 자세히 공부해보았다.검증(Validation)검증은 우리가 만든 모델의 성능이 얼마나 좋은지 평가하는 과정이다.검증을 통해 모델이 데이터를 얼마나 잘 이해했는지 확인할 수 있다.그렇다면 왜 중요할까?분류의 정확도: 분류 문제(예: 스팸 메일 여부)에서 모델이 얼마나 올바르게 분류하는지 확인한다.예측의 정확성: 예측 문제(예 내일의 주가)를 얼마나 정확히 맞추는지 평가한다.결과의 신뢰성: 모델이 새로운 데이터에서도 일관되고 신뢰할 만한 결과를 제공하는지 확인한다.왜 훈련 데이터만 사용하며 안될까?훈련 데이터만 사용해서 모델을 평가하면 실제 성능보다 과대 평가될 가능성이 높다.훈련 데이터에는 두 가지 패턴이 포함됨실제 효과(실제 관계): 데이터에 존재하는 진짜 규칙과 패턴.무작위 효과.. 2025. 1. 27.
[Discussion] 분류와 군집화의 근본적인 차이는 무엇일까? 그렇다 오늘도 토론이 올라왔다.What is the fundamental difference between classification and clustering?  Give an example of when to use each.분류(Classification)와 군집화(Clustering)의 근본적인 차이는 무엇일까?분류(Classification): 사전에 정의된 클래스(레이블)를 기준으로 데이터를 분류하는 지도학습(Supervised Learning)방법.군집화(Clustering): 데이터가 어떤 그룹에 속하는지 알 수 없을 때 데이터 간 유사성을 바탕으로 그룹을 형성하는 비지도학습(Unsupervised Learning) 방법.분류(Classification)와 군집화(Clustering)을 한.. 2025. 1. 24.
[Kafka] 카프카를 공부해보자 kafka는 무엇일까? 왜 쓸까? 어떻게 동작할까? 좀 딥하게 알아보자!KAFKA카프카는 분산형 스트리밍 플랫폼으로, 대용량의 실시간 데이터 스트림을 처리하는 데 특화된 오픈소스 솔루션이다.카프카는 주로 데이터 파이프라인 구축, 이벤트 스트리밍, 실시간 데이터 피드 처리에 사용된다.주요개념토픽(Topic)카프카에서 데이터가 저장되는 주제를 의미한다.토픽은 데이터의 카테고리를 나타내며, 데이터 스트림은 하나 이상의 토픽에 분배 된다.브로커(Broker)카프카 클러스터를 구성하는 각 서버를 브로커 라고 한다.각 브로커는 데이터를 저장하고 클라이언트 간 통신을 관리한다.프로듀서(Producer)데이터를 생산하고 카프카 토픽에 데이터를 전송하는 클라이언트이다.여러 토픽으로 데이터를 보낼 수 있다.컨슈머(Cons.. 2025. 1. 24.
[Discussion] 테스트 데이터의 모델 성능 토론 오늘도 공부를 위해서 토론에 올라온 주제로 공부해본다...!Suppose you've run a bunch of models on validation data and you've picked the one that does best.  Then you use test data to estimate how good that model is....a. Why is it likely that the goodness estimate from the test data isn't as good as the validation data suggests?...b. What if you run all of the models on the test data, and a different one looks best; sho.. 2025. 1. 24.
비동기와 논블로킹 논블로킹.........비동기............왜 생각이 안났을까...... 정리해본다.비동기(Asynchronous)정의:작업이 시작된 후 결과를 기다리지 않고, 호출자가 다른 작업을 계속 수행할 수 있는 방식 이다.작업 완료는 콜백, Future, Promise 등을 통해 통보 받는다.특징:호출자가 작업의 완료 여부를 직접 기다리지 않는다.작업이 완료되었을 때만 응답을 받는다.예제:이메일 전송 요청 후 바로 다음 코드 실행, 실제 전송 완료 여부는 나중에 콜백으로 알림.비동기의 동작 방법비동기는 일반적으로 이벤트 루프나 스레드 풀을 사용하여 작동한다.작업 요청호출자가 비동기 작업을 요청한다.요청은 즉시 반환되며, 호출자는 작업 완료 여부와 관계 없이 다른 작업을 계속할 수 있다.작업 처리작업은 백.. 2025. 1. 23.
[Discussion] 성능이 비슷한 모델들 중 최적 모델은 어떻게 선택할 것인가? 오늘도 토론에 올라온 개념을 정리해 보려고한다. If several models of almost-equal predictive quality are evaluated on the same set of validation data in order to select the model that performs best, is it likely that the truly best-predictive model will be chosen? 여러 모델 중에서 가장 성능이 좋은 모델을 고를 때, 우리는 가장 좋은 모델을 선택하고 있다고 확신할 수 있을까?좀더 구체적으로 주제에 대해서 말해보자면여러 모델이 비슷한 성능을 보일 때, 특정 모델이 검증 데이터에서 최고 성능을 보인건 단순히 운이 좋았을 수도 있다 라는 이.. 2025. 1. 20.
[DataModeling] Clustering 그리고 Distance Norms...... Week 공부도 어느정도 끝나간다! 아니지 끝은 없지 Clustering?정의:clustering은 데이터 포인트들을 서로 비슷한 속성을 기준으로 그룹으로 묶는 학습의 방법이다.Clustering의 목표는 동질적 cluster를 만들어내는 것 이다.Cluster 내 데이터는 서로 비슷하고, 다른 cluster간에는 차이가 뚜렷 해야한다.활용:고객 세분화(마케팅)이미지 분류이상 탐지대표적인 알고리즘K-MeansHierarchical ClusteringDBSCANDistance Norms(거리 규범)거리(norm)는 두 점 사이의 유사성 또는 차이를 측정하는 기준이다.주로 Clustering에서 데이터 포인트 간의 거리를 계산하는 데 사용된다.Euclidean Distance, 2-norm정의: 두 점 사이.. 2025. 1. 15.
반응형