전체 글 81

[elasticsearch] 클러스터

엘라스틱서치는 클러스터로 운영을 하는 구조입니다.엘라스틱서치는 노드를 여러 대 띄우고, 노드들을 연결하여 클러스터로 구성할 수 있습니다.노드들은 역할도 나눌 수 있도록 되어 있습니다.노드 종류는 아래의 총 11가지로 나뉘어집니다.https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-node.html#node-rolesmasterdatadata_contentdata_hotdata_warmdata_colddata_frozeningestmlremote_cluster_clienttransform노드 설정은 elasticsearch.yaml에서 아래와 같이 node.roles 설정을 추가하면 노드의 역할을 지정할 수 있습니다.node.ro..

ETC/Elasticsearch 2024.11.10

[elasticsearch] 데이터 저장

elasticsearch는 data storage로써, 데이터를 저장하는 것이 기본이며 저장된 데이터 중에 검색을 빠르게 할 수 있는 검색엔진입니다.오늘은 elasticsearch가 어떻게 데이터를 저장하는 지 알아보도록 하겠습니다. 우선 RDB를 사용하면, table과 column을 활용하여 데이터의 구조를 선언해서 사용하게 되어있습니다.elasticsearch는 유사하게 index와 field로 구성할 수 있습니다.각 field는 string, integer, boolean 등의 값을 저장할 수 있으며 검색 전략에 따라서 어떤 토크나이저를 사용할 지 설정할 수 있습니다.토크나이저는 추후에 좀 더 자세하게 따로 포스팅해보도록 하겠습니다. RDB와 elasticsearch를 비교해보면 아래의 표와 같이 ..

ETC/Elasticsearch 2024.10.27

[elasticsearch] why elasticsearch?

elasticsearch에 대한 글들을 정리해보려고 하는데, 첫 게시글로 왜 elasticsearch를 사용하는지에 대해서 정리해보려고 합니다.보통 백엔드 개발을 하다보면, elasticsearch를 처음부터 도입하진 않습니다.처음엔 일반적으로 RDB(Relational Database)를 많이 채택하고 서비스를 개발하는데요.서비스가 점점 커지고 검색으로 인한 부하가 커지면서 시스템이 위협?을 받게되면 검색엔진을 도입하게 되고 elasticsearch를 많이 선택하게 됩니다.elasticsearch가 그럼 왜 검색이 빠른지 알아봐야겠죠?elasticsearch는 엘라스틱사가 아파치 루씬을 기반으로 개발/공급하는 검색엔진 솔루션입니다.검색이 빠른 이유는 RDB보다 index를 화려하게 사용하기 때문인데요...

ETC/Elasticsearch 2024.10.13

[python] 파이썬 동시성 프로그래밍

동시성 프로그래밍에 대해서 알기 위해서는 Bound, Thread, Process, Sync, Async라는 개념들을 알고 넘어갈 필요가 있습니다. Bound부터 하나씩 알아보도록 하겠습니다. Bound 동시성 프로그래밍에 대해서 공부하려면 먼저 Bound라는 개념을 알고 갈 필요가 있는데, Bound는 묶인단 뜻으로 작업을 하면서 묶이게 되는 시간을 뜻 합니다. Bound는 CPU Bound와 I/O Bound 2가지로 나뉩니다. CPU Bound CPU를 활용하는 작업에 따라 기다리게 되는 구간을 뜻 합니다. ex) 수학 연산, 딥러닝 연산, 이미지 처리 등 I/O Bound I/O 작업에 대해서 기다리는 구간을 뜻 합니다. ex) 파일 입출력, 네트워크 요청 등 Thread vs Process Th..

python 2024.03.31

[fastapi] lifespan

Lifespan fastapi를 사용하면서, 앱이 시작할 때 혹은 앱이 종료될 때에 실행되어야 하는 로직이 분명 존재하게 됩니다. 저는 모니터링 관련 세팅이 앱 시작할 때 주로 실행되도록 구성을 많이 하고 있는데요. 이런 세팅들을 명시적으로 실행 위치를 정해주는 기능이 fastapi에 존재합니다. lifespan이라는 기능인데, 오늘은 fastapi의 lifespan을 소개해보겠습니다. 먼저 위에서 언급했듯이, 앱이 시작하기 전 혹은 종료 시 실행되어야 하는 로직을 정하고 lifespan 함수를 선언해서 함수 안에 로직들을 작성하고 연결만해주면 됩니다. 바로 예시 코드를 보면서 소개드리겠습니다. 아래 코드는 fastapi 공식 문서에 소개된 코드입니다. (https://fastapi.tiangolo.co..

python/fastapi 2024.03.03

Amazon OpenSearch Service

LLM(Large Language Model)이 발전하면서 RAG(Retrieval Augmented Generation)이 등장하였고, RAG의 방식 중에 하나로 벡터 서치가 굉장히 많이 활용되고 있습니다. 클라우드 서비스들도 벡터 서치를 지원하는 제품을 제공하고 있습니다. AWS는 Amazon OpenSearch Service, Azure는 Congnitive Search, GCP는 Vertex AI라는 제품을 각각 보유하고 있습니다. 오늘은 클라우드 중에 점유율이 제일 높은 AWS의 제품을 한번 리뷰해보려고 합니다. AWS가 제공하는 OpenSearch는 오픈 소스로도 제공되고 있어서, 꼭 AWS에서 사용할 필요는 없습니다. 직접 구축해서 사용하고 싶으시다면 아래 링크로 들어가서 문서를 읽어보고 구..

[Docker] 인터넷 없이 도커 설치하기

회사를 다니다 보면 간혹 인터넷이 안되는 상황이 있을 수 있는데요. 특히 금융권이 내부망은 인터넷을 막아놓기도 합니다. 인터넷이 막혀있으면, 도커를 설치하고 도커 이미지를 집어 넣으면 편하게 개발 환경을 설정할 수 있어서 저는 인터넷이 막혀있을 때는 도커를 설치해서 보통 환경을 세팅합니다. 인터넷 없이 도커를 설치할 땐 그래도 파일은 옮길 수 있는 환경이여야 설치를 할 수 있습니다. 가이드는 아래에 binary로 도커를 설치하는 공식 문서를 참조하시면 됩니다. https://docs.docker.com/engine/install/binaries/

ETC/Docker 2024.02.04

[mysql] docker로 mysql 실행하기

요즘엔 docker가 참 개발을 편하게 해주는 것 같습니다. 오늘은 mysql을 docker로 실행해보도록 하겠습니다. 먼저 이미지를 받아줘야 합니다. 아래 명령어를 활용하여 5.7 버전의 mysql을 받아주겠습니다. docker pull mysql:5.7 이제는 container 실행 명령어를 통해 실행만 하면 됩니다. docker run --name mysql -e MYSQL_ROOT_PASSWORD=1234 -e TZ=Asia/Seoul -d -p 3306:3306 mysql:5.7 옵션이 좀 많다보니, 옵션을 하나씩 훑어 보겠습니다. 먼저 --name 옵션은 컨테이너의 이름을 지정하는 옵션으로 mysql로 컨테이너 이름을 정해주었습니다. -e 는 환경변수를 집어넣는 옵션인데, root passwo..

ETC/MySQL 2024.01.31

모노 레포(Monolithic Repository)

오늘은 모노 레포 구조에 대하여 소개해보려고 합니다. 회사에서 업무를 하다보면, 프로젝트 별로 레포를 구분하기도 하는데 프로젝트가 점점 많아지면서 레포지토리 갯수가 그만큼 많아지게 되면, 유지보수 측면에서는 점점 복잡하게 됩니다. 프로젝트가 나뉘어져서 레포지토리가 나뉘더라도, 사용하는 라이브러리나 코드는 비슷하다보니 모노 레포를 적용하면 훨씬 관리가 용이해지는 효과를 볼 수 있습니다. 아래의 링크는 'Why Google Stores Billions of Lines of Code in a Single Repository'라는 제목으로 구글에서는 왜 하나의 레포로 관리하고 있는지 설명하는 글입니다. https://dl.acm.org/doi/pdf/10.1145/2854146 위의 글에서 설명하는 모노 레포의..

ETC/Git 2024.01.21

[Python] contextvars

fastapi가 등장한 이후로, python에서도 비동기로 구현하는 방식이 많이 활성화되고 있습니다. 멀티 스레딩으로 구현할 때는, thread의 context를 활용해서 로그를 남겨서 쉽게 모니터링 할 수 있었는데 비동기에서는 thread context가 없어서 해당 부분을 해소하기 위해서 등장한 것이 contextvars입니다. contextvars는 파이썬 표준 라이브러리로 따로 설치를 해야하는 것은 없습니다. 사용법은 매우 간단합니다. ContextVar를 한 번 선언을 하고, set 함수를 호출하여 context를 설정해주면 get 함수를 호출해서 가져다 쓸 수 있습니다. 바로 예시 코드를 보겠습니다. import asyncio import contextvars import random impo..

python 2024.01.07