본문 바로가기
반응형

전체 글139

[DataModeling]Change Detection, CUSUM 등등 으아아ㅏ 시험대비 공부를 해봅시다 변화 감지(Change Detection)시스템에서 변화가 발생했는지 확인하는 과정이다. 주로 시계열 데이터를 사용하여 시간에 따른 패턴 변화를 추적하고, 이를 기반으로 변화가 일어났는지 파악한다. 정상 범위를 벗어난 이상치를 찾아내거나, 변화가 중요한 의미를 가질 경우 조치를 취할 수 있도록 돕는다.적용행동 필요 여부 확인기계 유지보수: 기계가 고장이 날 가능성을 예측하고, 이를 미리 파악하여 유지보수 계획을 세울 수 있다.지구 온난화: 기후 변화에 대한 패턴을 추적하여 온난화가 계속되는지 확인하고, 이에 맞는 대처 방안을 모색할 수 있다.판매 추세 분석: 판매 패턴을 분석하여 판매가 급증하거나 급감하는 추세를 파악하고, 이로 인한 전략적 결정을 내릴 수 있다.행동의 .. 2025. 2. 10.
[Troubleshooting] #4 docker로 띄운 elasticsearch 노드 구성 후... master node 구성하는데 하루종일 걸린듯 하다 ㅠ문제: docker로 elasticsearch1, elasticsearch2, elasticsearch3 으로 구성된 node 설정시 master node를 계속 못찾는 문제{"@timestamp":"2025-02-05T11:21:59.611Z", "log.level": "WARN", "message":"master not discovered yet, this node has not previously joined a bootstrapped cluster, and this node must discover master-eligible nodes [elasticsearch1, elasticsearch2, elasticsearch3] to bo.. 2025. 2. 5.
[DataModeling] 데이터 준비 부터 이상치 탐지 및 처리까지 데이터 준비의 중요성모델을 학습시키기 전에 데이터를 적절히 처리하지 않으면, 알고리즘이 잘못된 패턴을 학습하거나 성능이 저하될 수 있다.신용 점수(credit score): 데이터가 300 ~ 850 범위에서 존재한다면, 특정 값들이 너무 큰 영향을 미칠 수 있다.일일 기온(daily temperature): 같은 섭씨 온도라도 지역마다 다른 영향을 미칠 수 있다.주식 가치(stock price): 주가가 천 단위인 경우와 십 단위인 경우 데이터 범위 차이가 크면 왜곡이 발생할 수 있다.이런 문제들을 해결하기 위해서 데이터를 정규화(normalization)하거나 표준화(standardization) 하는 것이 중요 하다.주요 데이터 준비 문제점데이터를 그대로 사용하면 모델의 성능이 저하될 수 있는 주요.. 2025. 1. 29.
[토비의스프링] 2장-테스트 으아아아ㅏㅏ 한장 한장 내용이 너무많아...... 테스트란?테스트란 결국 내가 예상하고 의도했던 대로 코드가 정확히 동작하는지를 확인해서, 만든 코드를 확신할 수 있게 해주는 작업이다. 또한 테스트의 결과가 원하는 대로 나오지 않는 경우에는 코드나 설계에 결함이 있음을 알 수 있다. 이를 통해 코드의 결함을 제거해가는 작업, 일명 디버깅을 거치게 되고, 결국 최종적으로 테스트가 성공하면 모든 결함이 제거됐다는 확인을 얻을 수 있다.코드의 정확성을 보장하여 신뢰도를 높인다.설계 및 코드의 결함을 조기에 발견하여 유지보수 비용을 절감할 수 있다.코드 변경(리팩토링) 시 기존 기능이 정상적으로 동작하는지 검증할 수 있다.테스트 실패시코드 자체의 버그잘못된 요구 사항 정의예상과 다른 실행 결과작은 단위의 테스트.. 2025. 1. 29.
[Elasticsearch Bible] 1장 소개 ~ 2장 동작과 구조 프로젝트를 하려면 elasticsearch에 대해서 얼추 아는게 아니라 정확히 알고있어야 하지 않겠어?Elasticsearch?검색 엔진단순 텍스트 매칭 검색이 아닌 전문 검색(full-text search)이 가능하고 다양한 종류의 검색 쿼리를 지원한다.검색 엔진이기 때문에 역색인을 사용하여 검색 속도도 매우 빠르다.분산처리데이터를 여러 노드에 분산 저장하며 검색이나 집계 작업 등을 수행할 때도 분산 처리를 지원한다.고가용성 제공클러스터를 구성하고 있는 일부 노드에 장애가 발생해도 복제본 데이터를 이용해 중단 없이 서비스를 지속할 수 있다.엘라스틱서치는 다시 복제본을 만들어 복제본의 개수를 유지하면서 노드 간 데이터의 균형을 자동으로 맞춘다.수평적 확장성새로운 노드에 엘라스틱서치를 설치하여 클러스터에 .. 2025. 1. 29.
[토비의스프링] 1장-오브젝트와 의존관계 와 1장부터 진짜 내용이 너무 많아서 힘들었다......... 책에서 나온 개념들을 쭉 정리해보았다...스프링 프레임 워크스프링 프레임워크는 다양한 엔터프라이즈 애플리케이션을 개발하는 데 필요한 여러 기능을 제공하는 오픈소스 프레임워크이다.IoC, AOP, 트랜잭션 관리, 메시징 등을 지원하여 애플리케이션 개발을 더욱 효율적으로 만들어 준다.빈(bean)스프링에서 빈(bean)은 IoC 컨테이너가 관리하는 객체를 의미한다. 빈은 스프링이 자동으로 생성하고 관리하는 객체로, 종속성 주입(DI) 방식으로 다른 객체에 의존성을 주입하거나, 특정 역할을 담당하는 객체로 사용된다. 스프링의 핵심 기능 중 하나는 객체를 IoC(제어의 역전) 방식으로 관리한다는 점이다. 객체간의 관계를 설정하고, 객체 생명주기 등을.. 2025. 1. 28.
[DataModeling] 검증(Validation)과 데이터 분할(Data Split) 앞에서 다뤘지만 조금더 자세히 공부해보았다.검증(Validation)검증은 우리가 만든 모델의 성능이 얼마나 좋은지 평가하는 과정이다.검증을 통해 모델이 데이터를 얼마나 잘 이해했는지 확인할 수 있다.그렇다면 왜 중요할까?분류의 정확도: 분류 문제(예: 스팸 메일 여부)에서 모델이 얼마나 올바르게 분류하는지 확인한다.예측의 정확성: 예측 문제(예 내일의 주가)를 얼마나 정확히 맞추는지 평가한다.결과의 신뢰성: 모델이 새로운 데이터에서도 일관되고 신뢰할 만한 결과를 제공하는지 확인한다.왜 훈련 데이터만 사용하며 안될까?훈련 데이터만 사용해서 모델을 평가하면 실제 성능보다 과대 평가될 가능성이 높다.훈련 데이터에는 두 가지 패턴이 포함됨실제 효과(실제 관계): 데이터에 존재하는 진짜 규칙과 패턴.무작위 효과.. 2025. 1. 27.
[Troubleshooting] #3 Test case 작성 에러 문제: 사용자 정보 업데이트에 대한 test case 작성시 아래와 같은 에러로 test failwhen() requires an argument which has to be 'a method call on a mock'.For example: when(mock.getArticles()).thenReturn(articles);Also, this error might show up because:1. you stub either of: final/private/native/equals()/hashCode() methods. Those methods *cannot* be stubbed/verified. Mocking methods declared on non-public parent classe.. 2025. 1. 26.
[Discussion] 분류와 군집화의 근본적인 차이는 무엇일까? 그렇다 오늘도 토론이 올라왔다.What is the fundamental difference between classification and clustering?  Give an example of when to use each.분류(Classification)와 군집화(Clustering)의 근본적인 차이는 무엇일까?분류(Classification): 사전에 정의된 클래스(레이블)를 기준으로 데이터를 분류하는 지도학습(Supervised Learning)방법.군집화(Clustering): 데이터가 어떤 그룹에 속하는지 알 수 없을 때 데이터 간 유사성을 바탕으로 그룹을 형성하는 비지도학습(Unsupervised Learning) 방법.분류(Classification)와 군집화(Clustering)을 한.. 2025. 1. 24.
반응형