top of page
검색

LLM, SLM 기반 추론 환경을 위한 모델 경량화 & 최적화가 중요한 이유!!

  • Chang Sun Park
  • 2024년 11월 26일
  • 2분 분량

거대 언어 모델(Large Language Model, 이하 LLM)이나 소형 언어 모델(Small Language Model, 이하 SLM)을 프로덕션 환경에 배포하여 추론 작업을 수행할 때 GPU, NPU, 메모리 등 자원을 효율적으로 사용하는 것이 중요합니다. 이는 성능 보장과 비용 절감 측면에서 매우 중요하다 볼 수 있습니다.


관련해 LLM, SLM 기반 AI 전환을 추진 중인 많은 조직에서 관심을 보이는 것이 있습니다. 바로 ‘모델 경량화 & 최적화’입니다. 이 기술을 적용하면 빠르고 효율적인 추론을 통해 서비스 응답 속도를 높이고 지연을 최소화할 수 있으며, 자원 효율성이 높아 비용 절감에도 도움이 됩니다.

 

서버 & 엣지 환경에 대한 고려가 필요

 

추론 환경은 크게 두 가지로 유형을 구분할 수 있습니다. 하나는 온프레미스나 하이브리드 클라우드 환경의 가상 머신이나 컨테이너 플랫폼에서 운영하는 서버에 모델을 배포해 추론 작업을 하는 것입니다. 다른 하나는 GPU나 NPU를 장착한 엣지 서버나 엣지 장치에 직접 모델을 배포하는 것입니다. 여기서 엣지 장치는 지능형 CCTV나 로봇 같은 엣지 AI 장치와 노트북 같은 온디바이스 AI(On Device AI) 기기로 유형을 나누어 볼 수 있습니다.

 

서버와 엣지 환경에서 추론 작업을 할 때 모델 경량화 및 최적화를 어떻게 해야 할까요? 대원씨티에스는 다양한 기술과 도구를 활용하는 방안을 테스트하며 경험을 쌓아 가고 있습니다.

 

온프레미스 & 클라우드 서버 환경

 

서버 부문의 경우 고려할 수 있는 옵션으로 허깅페이스(Hugging Face_의 TGI(Text Generation Inference)와 오픈 소스 프로젝트인 vLLM을 꼽을 수 있습니다. 이 두 기술은 서버 환경에서의 추론 최적화에 여러모로 도움이 됩니다. 각각의 특징을 간단히 정리해 보겠습니다.

 

허깅페이스의 TGI는  Llama, Falcon, StarCoder, BLOOM, GPT-NeoX, T5를 포함한 가장 인기 있는 오픈소스 LLM에 대한 고성능 텍스트 생성 추론을 지원합니다. 특징을 살펴보자면 TGI는 텐서 병렬 처리, 토큰 스트리밍, 연속 배치와 같은 최적화 기술을 통해 GPU 자원을 효율적으로 활용하며, 대규모 데이터 처리에서도 높은 추론 속도를 제공합니다.

 

예를 들어 텐서 병렬 처리는 모델의 각 부분을 여러 GPU에 분산해 병렬로 처리함으로써 연산 속도를 대폭 향상시킵니다. 또한, TGI는 특정 하드웨어나 클러스터 구성에 얽매이지 않고 다양한 환경에서 일관된 성능을 보장합니다. 이로 인해 여러 종류의 하드웨어를 혼합해 사용하는 환경에서도 유연하게 운영할 수 있습니다.

 

vLLM은 PagedAttention 기술을 활용해 메모리 사용량을 기존 대비 최대 80% 줄입니다. 이를 통해 동일한 하드웨어로 더 크고 복잡한 모델을 실행하거나 동시 요청을 더 많이 처리할 수 있습니다. 또한, 복잡한 설정 없이도 간단하게 LLM을 사용할 수 있으며 여러 언어 모델과 프레임워크를 지원하여 특정 기술 스택에 제한받지 않고 유연하게 활용할 수 있습니다.

 

허깅페이스의 TGI와 vLLM은 필요에 맞게 선택하면 됩니다. TGI는 다양한 최적화 기법과 오픈 소스 LLM 지원을 통해 유연한 환경 구성이 필요한 경우에 적합합니다. LLM은 메모리 효율성을 중시하고, 간편한 사용과 직관적 구성이 필요한 경우에 적합합니다.

 

엣지 환경

 

다음으로 엣지 환경의 경우 대원씨티에스는 주요 파트너 기업인 Nota AI의 넷츠프레소(NetsPresso) 플랫폼을 활용하여 엣지 서버나 엣지 장치에 적합한 모델 최적화와 배포를 수행하고 있습니다. 넷츠프레소를 활용하면 모델 경량화 과정을 자동으로 진행해 타깃 장치에 최적화된 AI 모델을 개발하고 배포할 수 있습니다.



정리하자면 허깅페이스 TGI와 오픈 소스 프로젝트인 vLLM은 서버 환경에서의 고성능 추론을 위한 기술이며, Nota AI의 넷츠프레소는 엣지 환경에 배포하는 모델 최적화와 배포를 위한 강력한 도구입니다. 대원씨티에스는 이러한 기술들을 활용하여 다양한 고객의 요구에 맞는 최적의 추론 환경을 구축하고 있습니다. 더 자세한 내용이 궁금하시면 대원씨티에스가 도움을 드리겠습니다.

 

 
 
 

Comments


logo_dw.png

대원씨티에스 DIA Nexus

대표이사 : 하성원, 이상호, 김보경   ㅣ  사업자 등록번호 : 106-81-21127  ㅣ   이메일: AI_sales@computer.co.kr

주소: 본사 - 서울시 용산구 청파로 109 나진전자월드빌딩 2층   ㅣ   판교 - 경기도 성남시 분당구 판교역로 240

TEL : 02-2004-7700, 02-2004-7778(영업 문의)

  • Youtube
  • Facebook
  • LinkedIn
bottom of page