top of page
검색

최고의 성능과 효율을 보장하는 KAYTUS의 풀스택 AI

  • Chang Sun Park
  • 9월 29일
  • 3분 분량

GPU 클러스터 구축은 험난한 여정입니다. 경험 없이 시작하면 시행착오를 피할 수 없습니다. 알아야 할 것이 너무 많아서 인데요. 고가의 GPU 자원이 제 성능을 내지 못하거나 자원 활용률이 목표치보다 낮게 나오면 튜닝의 늪에 빠질 수 있습니다.


서버, 스토리지, 네트워크를 잘 아는 인프라 전문가와 플랫폼 엔지니어링 전문가를 최적화 작업에 투입할 수 있다면 내재화 측면에서 도전해 볼만한 작업입니다. 하지만 역량을 갖춘 팀을 보유하고 있지 않은 것이 현실이죠.


이런 시장의 고민을 해결하기 위해 인프라 전문 기업들은 각자의 장점을 살린 풀스택 AI를 제안합니다. 이번 포스팅에서는 대원씨티에스 파트너인 KAYTUS의 풀스택 AI 전략을 살펴보겠습니다.

 

KAYTUS의 선택과 집중 전략

KAYTUS는 AI 인프라, 시스템/플랫폼, LLM 도구로 풀스택 AI를 구성합니다. 한 눈에 봐도 사전에 최적화를 한 조합임을 알 수 있습니다. 사실 GPU 기반 AI 클러스터 구성의 모범 답안은( NVIDIA

)가 방향성을 제시하고 있습니다. AI 팩토리란 표현에 NVIDIA의 야심찬 목표가 담겨 있습니다. 바로 데이터센터 규모로 스케일아웃을 해도 모든 컴퓨팅 자원이 마치 하나의 시스템처럼 유기적으로 돌아가는 것입니다.


KAYTUS는 이런 이상향을 나름의 방식으로 구현하였습니다. NVIDIA과 차이가 궁금할 수 있을 텐데요. 누구를 위한 제안인지를 보면 쉽게 차이를 알 수 있습니다. NVIDIA는 GPU, DPU부터 CUDA, AI Enterprise, NIM 등 AI 가속기부터 시스템, 플랫폼, 소프트웨어 개발과 운영을 위한 부문까지 AI 컴퓨팅의 전 영역을 아우르는 포괄적인 스택을 제공합니다.


이 스택을 활용하는 이해관계자도 그 역할이 다양합니다. 인프라 관리자, 시스템 엔지니어, K8s/MLOps 플랫폼 엔지니어, 데이터 과학자 및 데이터 엔지니어, AI 개발자, 소프트웨어 엔지니어, 심지어 코딩을 모르는 비즈니스 현업 사용자까지 포함됩니다.


이런 접근은 NVIDIA 유니버스(Universe)를 구축하는 것이라고 표현할 수 있는데 이는 NVIDIA만 할 수 있는 일입니다. 반면에 KAYTUS는 ‘선택과 집중’의 전형을 보여줍니다. AI 인프라 전문 기업의 강점을 살리되 범위를 넓히지 않고 기업이 호소하는 현실적인 고충을 해결하는 쪽으로 풀스택 AI의 범위를 정했습니다.

 

ree

 

탄탄한 인프라

KAYTUS의 풀스택 AI의 토대는 인프라입니다. 거대 언어 모델 훈련부터 대규모 추론 서비스까지 유연한 스케일업과 스케일아웃을 지원하는 아키텍처에 기반합니다. 서버 포트폴리오의 경우 NVIDIA GPU와 함께 인텔 제온, AMD EPYC, AmpereOne CPU를 자유롭게 선택할 수 있는 옵션을 제공합니다. 그리고 AI 워크로드의 요구에 맞는 파일시스템을 채택한 스토리지와 고속 RDMA 기반 네트워킹 기술로 성능 병목 없는 스케일아웃을 지원합니다. 한편, 액체 냉각을 활용할 수 있는 데이터센터의 경우 2상 콜드 플레이트와 같은 KAYTUS의 액체 냉각 기술로 더 작은 공간에 더 많은 컴퓨팅 파워를 집약할 수 있습니다.

 

견고한 시스템 & 플랫폼

AI 인프라가 최고 성능과 효율로 24시간365일 돌아가게 만드는 것은 견고한 시스템과 플랫폼 엔지니어링 역량 없이 불가능합니다. KAYTUS의 풀스택 AI는 이 역량을 MotusAI와 PODsys을 통해 고객에게 제공합니다.


MotusAI는 KAYTUS의 하드웨어 인프라를 최적의 상태로 활용할 수 있도록 돕는 MLOps 및 모델 서빙 플랫폼으로 모델 훈련부터 추론까지 End-to-End를 지원합니다. 핵심 기능은 리소스 관리와 고급 스케줄링 능력입니다. 일반적인 MLOps 플랫폼과 다른 점은 하드웨어 최적화의 이점을 제공한다는 것입니다.


KAYTUS는 이를 ‘하드웨어 인지(Hardware Awareness)’라고 표현합니다. 풀어 설명하자면 MLOps 플랫폼이 하드웨어 아키텍처와 성능 특성을 인지하고 이를 최대한 활용한다는 것입니다. 예를 들어 MotusAI 스케줄러는 작업 큐잉, GPU 부하 분산, 그리고 데이터셋 선호도 스케줄링(dataset affinity scheduling)과 같은 다양한 기술을 통합하여 리소스 배치를 최적화합니다. 데이터셋 선호도 스케줄링은 특정 데이터셋이 이미 캐시되어 있는 노드에 해당 데이터를 필요로 하는 작업을 우선적으로 할당하여 데이터 이동을 최소화하고 시작 시간을 단축합니다. 한편, MotusAI는 vLLM을 내장하고 있습니다. 훈련이나 미세 조정을 마친 모델은 vLLM 플랫폼을 활용해 높은 성능으로 서빙할 수 있습니다.


PODsys는 인프라 설정 및 관리를 위한 기본 도구로 AI 클러스터 배포를 위한 소프트웨어라고 이해하면 됩니다. PODsys로 인프라 관리자는 운영체제, NVIDIA 드라이버 등 필수 소프트웨어의 설치를 자동화하여 GPU 클러스터 구축의 복잡성과 소요 시간을 크게 줄일 수 있습니다. 클러스터 구축 후에는 PODsys가 제공하는 시스템 모니터링과 성능 최적화 기능으로 일상적인 관리 작업을 하면 됩니다.

 

ree

 

LLM 툴체인으로 완성하는 스택

KAYTUS는 LLM 프로젝트 추진에 필요한 도구를 하나로 묶어 제공하는 것으로 풀스택 AI를 완성하였습니다. LLM ToolChain은 LLM을 위한 고품질 데이터셋을 생성하고, 사전 학습된 모델을 특정 작업에 맞게 미세 조정하고, LLM이 환각을 줄이고 정확도를 높이도록 돕는 검색 증강 생성(RAG) 적용까지 사전에 긴밀하게 연계한 툴체인으로 작업을 지원합니다.

 

통합의 이점은?

KAYTUS의 풀스택 AI는 고객에게 어떤 이점을 제공할까요? 가장 크게 다가오는 이점은 원스톱 서비스입니다. 서버, 스토리지, 네트워크 장비를 도입해 클러스터를 구성하고 시스템과 플랫폼을 설치해 성능 최적화 작업을 따로 할 필요가 없습니다. 인프라부터 시스템, 플랫폼, LLM 도구까지 원스톱으로 제공 받아 활용하면 됩니다. 여러 벤더와 협업을 할 필요가 없어 문제 해결 속도도 빠르고 유지보수 편의성도 높습니다. KAYTUS의 풀스택 AI는 고객 맞춤형으로 컨설팅을 통해 제공됩니다. 더 자세한 내용이 궁금하시면 대원씨티에스로 문의 바랍니다.


 

 
 
 
bottom of page