클라우드를 닯아 가는 AI 데이터센터 전략, LLM 추론 워크로드 최적화를 위해 새로운 선택지 ‘LPU’
- Chang Sun Park
- 9월 29일
- 2분 분량
요즘 AI 인프라 트렌드를 보면 클라우드를 많이 닮아가고 있는 것을 알 수 있습니다. 특히 AI 워크로드 최적화 컨셉을 아키텍처 설계 단계부터 고려하는 것이 눈에 띄게 닮았습니다. 대원씨티에스는 이런 흐름을 일찍부터 감지하고 GPGPU 서버 외에도 NPU, LPU 기반 인프라를 아키텍처 설계 전략에 반영하기 위해 국내 주요 AI 가속기 기업과 파트너십을 맺어오고 있습니다. AI가 모델 훈련의 시대를 넘어 이제 실질적인 비즈니스 가치를 창출하는 추론 시대로 접어 드는 것에 맞춰 대원씨티에스는 워크로드 유형에 맞는 운영, 비용, 확장 등을 고려해 훈련, 미세 조정, 추론을 위한 최적의 AI 가속기 활용 방안을 제시합니다. 이번 포스팅에서는 추론 워크로드를 위한 선택지 중 하나인 LPU(LLM Processing Unit)에 대해 알아볼까 합니다.
LPU와 GPGPU, NPU의 차이
LPU는 NPU(Neural Processing Unit)의 하위 범주에 속하는 개념입니다. LPU나 NPU는 GPGPU와 달리 추론에 특화된 AI 가속기라는 공통점이 있습니다. 차이점은 LPU는 이름에서 알 수 있듯이 선택과 집중 전략으로 LLM의 종단간 추론(End-to-End Inference)에 초점을 맞춘다는 것입니다.
한국에서는 대원씨티에스의 파트너인 하이퍼엑셀이 LPU 전문 기업입니다. 하이퍼엑셀이 NPU 시장에 출사표를 던진 이유는 무엇일까요? 딥러닝 모델은 연산(Compute-centric)이 중요한 반면에 트랜스포머 기반의 LLM은 방대한 모델 데이터를 반복적으로 처리해야 하는 데이터 흐름 (Dataflow-centric) 처리를 신경써야 합니다. 이 지점이 바로 LPU가 파고들 시장의 틈새입니다.
LLM 추론 워크로드 처리에 GPGPU는 좀 과한 부분이 있습니다. GPGPU는 수천 개의 작은 범용 코어가 온칩 메모리 데이터를 계속 읽고 쓰는 구조입니다. 이 과정에서 데이터 병목 현상이 생겨 HBM 같은 고대역폭 메모리의 성능을 온전히 활용하지 못하는 비효율을 낳습니다. LPU는 바로 이 부분에서 확실한 차별점을 만들었습니다.
스트림라인드 데이터플로우 아키텍처
하이퍼엑셀은 기존 GPGPU의 비효율 문제를 해결하기 위해 소수의 크고 특화된 코어를 사용하는 스트림라인드 데이터플로우(Streamlined Dataflow)라는 아키텍처를 채택했습니다. 이 구조는 거대한 LLM 모델 데이터가 파이프라인을 따라 단 한 번만 흐르면 연산 엔진이 중간 과정 없이 최종 결과물인 토큰을 생성합니다. 데이터가 칩 내부에서 불필요하게 반복해서 움직일 필요가 없는 구조인 셈이죠. 하이퍼엑셀에 따르면 이런 구조적 특징으로 외부 메모리 대역폭의 90%를 실제 연산에 활용할 수 있다고 합니다.
가성비의 비밀 LPDDR
하이퍼엑셀은 10분의 1 가격으로 LLM 추론에 특화된 AI 가속기 공급을 목표로 합니다. 곧 출시될 4나노 ASIC 칩 기반 보드의 목표 가격은 약 500만 원으로, 현재 약 5,000만 원에 달하는 NVIDIA H100의 10분의 1 수준으로 출시될 전망입니다. 이런 가성비의 비밀은 메모리에 있습니다. 고성능 AI 칩의 표준으로 통하는 고가의 HBM이 아니라 상대적으로 저렴하고 전력 효율이 높은 LPDDR5X 메모리를 전략적으로 채택했습니다. 이를 데이터센터 서버용 제품에 적용한 것은 매우 이례적입니다. 이는 단순히 원가 절감을 위한 선택이 아닙니다. 스트림라인드 데이터플로우 아키텍처로 메모리 대역폭 활용률을 극대화 덕분에 가능한 선택입니다.
vLLM 흐름에 올라타기
NVIDIA의 가장 강력한 해자는 하드웨어가 아닌 CUDA 생태계 CUDA입니다. 하이퍼엑셀은 이 장벽을 정면으로 돌파하는 대신 영리하게 우회하는 전략을 선택했습니다. AI 소프트웨어 스택을 모델 개발 레이어’와 추론 서비스 레이어로 구분하고 후자를 공략하는 것입니다.
하이퍼엑셀은 서비스 레이어에서 사실상 표준으로 자리 잡아 가고 있는 vLLM을 적극적으로 지원합니다. 자사 LPU를 vLLM의 백엔드(Backend)에 플러그인 형태로 제공해 고객이 기존 vLLM 기반 서비스를 최소한의 코드 변경으로 LPU에서 실행하도록 지원하는 것을 소프트웨어 스택 전략의 큰 방향으로 잡고 있습니다. 이를 뒷받침하기 위해 하이퍼엑셀은 하이퍼덱스(Hyperdex) SDK 및 독자적인 트라이톤 DSL(Domain-Specific Language)을 개발하며 소프트웨어 스택 안정화에 공격적으로 투자하고 있습니다.

출사표
하이퍼엑셀은 2025년 현재 FPGA 기반 오리온 서버를 공공기관 등에 판매하는 가운데 LPU 핵심 엔진을 IP 형태로 라이선스 사업을 펼치며 매출을 만들어 가고 있습니다. 본격적인 성장은 2026년 4나노 공정의 데이터센터용 ASIC 칩을 출시와 함께 시작될 예정입니다. 대원씨티에스는 AI 인프라 플스택 역량을 바탕으로 AI 워크로드 최적화 전략 하에 LPU를 가장 효율적으로 활용할 수 있는 아키텍처 설계와 플랫폼 엔지니어링 서비스를 제공할 계획입니다. 더 자세한 내용이 궁금하시면 언제든 문의 바랍니다.



댓글