seokhyun2

  • 홈
  • 태그
  • 미디어로그
  • 위치로그
  • 방명록

API 1

[MLOps] BentoML - Adaptive Batching

오늘은 Adaptive Batching에 대해서 알아보려고 합니다. 왜 필요한 지 먼저 알아볼건데, infernce의 경우 하나의 input을 inference 하는 것 보다, batch로 inference하면 훨씬 빠르고 효율적으로 추론을 할 수 있습니다. 하지만 api를 서빙을 하는 경우에는 batch로 inference가 매우 어렵습니다. 예시를 들어보면 챗봇이라고 생각을 하면 intent(의도)를 분류하는 모델을 api로 서빙을 할 텐데, 하나의 질문에 대한 intent만 분류하면 되기 때문에 api에 batch로 inference를 요청할 수 없습니다. api server 입장에서는 한 문장씩 입력이 들어오더라도, 비슷한 시간에 들어오는 문장들을 묶어서 infernce를 해서 결과를 반환해주면 ..

ML OPS/Inference & Serving 2023.03.12
이전
1
다음
더보기
프로필사진

seokhyun2

  • 개발자 블로그 (87)
    • ML OPS (12)
      • Inference & Serving (6)
      • Experiment Management (1)
      • Vector Search (2)
    • DeepLearning (8)
      • Service (6)
      • Natural Language Processing (1)
      • ETC (1)
    • python (24)
      • SQLAlchemy (3)
      • fastapi (4)
    • ETC (33)
      • Ubuntu (4)
      • Kubernetes (2)
      • Docker (4)
      • Redis (2)
      • MySQL (3)
      • Kafka (3)
      • VScode (2)
      • Git (3)
      • Pattern (1)
      • Svelte (1)
      • Kotlin (1)
      • Elasticsearch (7)
    • 나의 이야기 (10)

Tag

deep learning model serving, tf2.0, Python, deep learning, Inference, fastapi, tensorflow serving, MySQL, TensorFlow, 엘라스틱서치, MLOps, pytorch, 글또, onnx, flask, index, 파이썬, Elasticsearch, serving, docker,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/08   »
일 월 화 수 목 금 토
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바