DeepLearning/Service

딥러닝 모델 서빙과 병렬처리

seokhyun2 2020. 3. 15. 19:56

저도 회사에서 딥러닝 모델 서빙을 하고 있는데, 서빙을 하다보니까 제일 처음에 부딪히는 문제가 병렬처리였습니다.

그래서 이번 포스팅에서는 딥러닝 모델을 서빙할 때 어떻게 병렬처리를 해줘야 할 지 이야기를 해보려고 합니다.

 

먼저 저희는 쓰레드와 프로세스라는 개념을 살짝 정리하고 가야해요.

먼저 프로세스컴퓨터에서 연속적으로 실행되고 있는 컴퓨터 프로그램이라고 정의되고 쓰레드프로세스 내에서 실행되는 흐름의 단위로 정의가 됩니다.

그래서 쓰레드는 프로세스에 포함이 되게 되죠. 

리눅스에서 top 명령어를 실행하면, 현재 실행 중인 프로세스의 리스트를 볼 수 있어요. 만약 해당 프로세스가 여러개의 쓰레드를 사용하고 있으면, cpu가 100%을 초과하는 걸 보실 수 있을 거에요.

 

그래서 병렬처리는 여러 쓰레드를 활용하는 방법이 있고, 여러 개의 프로세스를 활용하는 방법이 있으며 각각 멀티 쓰레드, 멀티 프로세싱이라고 부릅니다.

멀티 프로세싱은 여러 개의 프로세스가 별도로 실행되고 각 프로세스가 별개의 메모리를 차지하고 있으며, 멀티 쓰레드는 하나의 프로세스 내에서 메모리를 공유해서 사용합니다.

 

개발환경마다 차이가 있으므로, python에서 tensorflow나 pytorch를 사용하는 경우에 한해서만 다루도록 하겠습니다.

python의 경우에는 GIL (Global Interpreter Lock)이라는게 존재합니다.

GIL은 파이썬에서 멀티 쓰레드를 사용할 경우에 단 하나의 쓰레드만 python object에 접근할 수 있도록 제한하는 mutex입니다.

쉽게 말하면 파이썬 쓰레드는 한번에 하나 밖에 동작을 못 합니다.

그럼에도 멀티 쓰레드를 쓰는 이유는! 각 쓰레드가 동작을 하되, IO block과 같은 대기하는 시간이 생길 때 다른 쓰레드가 동작을 함으로써 병렬처리가 가능합니다.

 

그럼 여기서 tensorflow나 pytorch를 사용할 때는?! 멀티 쓰레드로 동작시켜서 동시에 inference를 수행하면 여러 쓰레드가 동시에 동작을 합니다! 그건 tensorflow나 pytorch 코어 내부에서는 python이 아닌 다른 언어가 동작하고 있어서 GIL의 영향을 받지 않고, inference를 수행하는 동안 멀티 쓰레드가 동작합니다.

그래서 flask를 활용하여 서빙할 때, 실행 시에 threaded=True를 사용하면, 요청이 동시에 들어와도 수행이 가능합니다.

하지만 pytorch의 경우에는 현재 멀티 쓰레드를 사용하면 내부적으로 변수가 꼬이는 현상이 발생하므로 사용하시면 안됩니다.

그에 반해 tensorflow의 경우에는 inference를 하는 부분이 멀티 쓰레딩으로 처리를 할 수 있습니다.

tensorflow와 flask를 활용하여 딥러닝 모델을 서빙하는 경우에는 threaded = True 옵션을 설정하면 멀티 쓰레딩으로 처

리를 할 수 있습니다.

다시 한번 정리하면, tensorflow는 멀티 쓰레드로 처리를 할 수 있고 pytorch는 멀티 쓰레드로 처리를 할 수 없습니다.

 

그러면 pytorch의 경우에는 어떻게 해야될까요?

멀티 프로세싱을 활용하시면 됩니다. 멀티 프로세싱은 여러 개의 프로세스를 실행시키는 방식으로, 각 프로세스가 별도로 동작하므로 pytorch에서 아무 문제가 없이 사용할 수 있습니다.

사실, tensorflow의 경우에도 멀티 쓰레드로 처리하는 것 보다, 멀티 프로세싱으로 처리하는 것이 더 빠릅니다. 멀티 쓰레드는 하나의 프로세스 내에서 컨텍스트 스위칭이 필요하기 때문이죠.

멀티 프로세스를 사용한다고 하면 인퍼런스를 하는 서버를 여러 개 띄워두고, 요청이 들어올 때는 잘 중재하여 각 인퍼런스 서버에 나눠서 일을 시키도록 하는 모습이 될 수 있습니다.

 

간단하게 멀티 프로세스로 딥러닝 모델을 서빙해보는 방법을 한번 해보도록 할게요.

장고(django)를 활용한 웹 서버를 배포할 때 많이 사용되는 방법으로, gunicorn을 활용하면 됩니다.

gunicorn은 WSGI HTTP 서버로, 설정이 매우 쉽고 성능이 뛰어나서 많이 활용됩니다.

 

그러면, 이전 포스팅에서 소개했던 소스코드를 활용해서 테스트를 해보도록 하겠습니다.

먼저 소스코드를 다운받아볼게요.

>> git clone https://github.com/hsh2438/mnist_serving_tf2.0_flask.git

소스코드를 받아서 디렉토리 안에 들어간 뒤에 requirements.txt 파일을 활용하여 필요한 라이브러리를 설치해줍니다.

>> pip3 install -r requirments.txt

그 다음엔, 서빙을 하기 위한 모델을 학습해줍니다.

>> python3 train.py

저번에는 flask 서버를 실행하기 위해서 python3 flask_server.py와 같이 실행을 했었는데 소스코드는 고치지 않고, gunicorn으로 실행하시면 됩니다.

gunicorn 설치는 아래와 같은 명령어로 쉽게 설치할 수 있습니다.

>> pip3 install gunicorn

이제 아래의 명령어로 gunicorn을 활용하여 flask 서버를 실행해보겠습니다.

>> gunicorn flask_server:app --bind=0.0.0.0:2431 -w 4

gunicorn을 활용하고, --bind 옵션은 ip와 port를 세팅하는 부분입니다.

-w는 worker로 프로세스의 갯수입니다. 저는 4로 적었기 때문에 4개의 프로세스에서 나눠서 병렬로 처리할 수 있게 됩니다.

아래와 같이 --daemon 옵션을 추가하면 백그라운드에서 실행시킬 수 있습니다.

>> gunicorn flask_server:application --bind=0.0.0.0:2431 --daemon -w 4

 

오늘은 딥러닝 모델을 서빙할 때 병렬처리를 어떻게 해야하는지 알아보았습니다.

python에서는 멀티 쓰레딩과 멀티 프로세싱으로 병렬처리를 할 수 있지만 pytorch의 경우엔 멀티 쓰레딩이 활용이 불가능하며, tensorflow에선 멀티 쓰레딩을 활용을 할 수는 있지만 그래도 멀티 프로세싱이 더 좋습니다.

그래서 gunicorn을 활용하여 제일 간단하게 멀티 프로세싱을 활용하여 딥러닝 모델을 서빙을 해보았습니다.

그런데 요즘에 나오는 최신 모델들은 매우 크고 연산이 많이 필요하여 GPU를 활용해서 서빙을 해야하는 경우가 많습니다.

다음 포스팅에는 GPU를 활용한 서빙에 대해서 다뤄보도록 하겠습니다.