AI 워크로드 최적화 인프라 시리즈 - Part 2: 최적화 포인트1 - 프로세서, 네트워크 I/O, 스토리지

jiyoung kim
1월 14일
3분 분량

Part 1에서는 AI 개발과 배포 및 운영 과정에 포함된 데이터 전처리, 모델 훈련, 추론 등의 다양한 워크로드 특성을 이해하고, 각기 다른 요구 사항을 인프라 설계에 반영하는 것이 왜 중요한지 살펴보았습니다. Part 2와 Part 3에서는 AI 워크로드의 요구 사항을 충족하기 위해 인프라 설계 시 반드시 고려해야 할 핵심 기술 요소와 최적화 방안을 컴퓨팅 자원(프로세서), 데이터 이동(네트워크 I/O), 데이터 저장(스토리지), 물리적 환경(전력·냉각), 병렬 처리 구조의 다섯 가지 측면에서 상세히 살펴봅니다. 먼저 Part 2에서는 이 중 프로세서, 네트워크 I/O, 스토리지에 대해 먼저 알아보겠습니다.

GPU vs CPU: 적합한 프로세서 선택과 구성 비율 최적화

AI 인프라하면 대부분 GPU를 떠올립니다. 하지만 GPU 홀로 모든 것을 하지는 않습니다. CPU도 나름의 역할을 합니다. 따라서 인프라 설계에 있어 워크로드 특성을 반영해 GPU와 CPU를 어떻게 조화롭게 활용할지 기준을 잡아야 합니다.

먼저 각각의 역할을 정리하고 본론에 들어가겠습니다. GPU는 대규모 병렬 연산에 특화된 프로세서로, 딥러닝 모델 훈련처럼 행렬 연산이 집중되는 워크로드의 성능을 높입니다. 반면 CPU는 범용 연산에 능하며, 특히 데이터 전처리 및 시스템 오케스트레이션 측면에서 여전히 중요한 역할을 합니다. 훈련 환경에서는 일반적으로 GPU와 CPU가 협업을 합니다. GPU가 핵심 연산을 수행하는 동안 CPU는 데이터 로딩, 전처리, 작업 스케줄링 등을 담당하여 GPU가 최대 효율을 내도록 지원합니다. 따라서 AI 워크로드 최적화 기반 인프라를 설계할 때 GPU 대 CPU 자원의 비율을 올바르게 산정하는 것이 중요합니다.

보통 GPU 1개당 최소 4개의 CPU 코어를 할당합니다. 예를 들어 4개의 GPU를 장착한 서버라면 적어도 16코어 이상의 CPU를 탑재한다는 소리입니다. 참고로 CPU는 PCIe 레인 수, 메모리 대역폭 측면에서도 충분한 사양을 갖춰야 합니다. CPU의 PCIe 레인이 부족하면 여러 GPU에 데이터를 공급할 때 병목이 발생해 GPU 성능을 제대로 활용하지 못하게 됩니다.

GPU 선택 시에는 연산 성능과 메모리 용량을 중점적으로 고려해야 합니다. 예를 들어 수억 개의 파라미터로 구성된 최신 거대 언어 모델(LLM)은 VRAM 10GB 이하로는 로드조차 불가능할 정도로 메모리 요구량이 큽니다. GPU 메모리는 나중에 증설할 수 없습니다. 처음부터 현재 요구치를 충분히 넘어서는 메모리 용량을 가진 모델을 선택하는 것이 안전합니다. 만약 메모리가 부족하여 훈련 도중 GPU가 디스크에 데이터를 스왑(swap)해야 하는 상황이 발생하면 훈련 성능이 저하될 수밖에 없습니다. 이처럼 GPU 사양 선정 단계에서 연산 장치, 메모리 용량 및 대역폭, 다중 GPU 간 연결 지원 같은 요소를 종합적으로 판단하여 워크로드에 맞는 모델을 선택하는 것이 중요합니다.

한편, 추론 워크로드의 경우 모델 특성과 활용 목적에 맞게 GPU 대신 NPU, LPU, VPU 등을 선택하는 것을 적극적으로 고려할 수 있습니다. 이들 AI 가속기는 추론 작업에 있어 GPU 못지 않은 성능을 더 적은 전력 소모와 비용으로 처리할 수 있어 여러모로 이점이 큽니다.

네트워크 I/O: 고대역폭·저지연 내부망 구축

AI 인프라에서 네트워킹은 종종 간과되지만 성능을 좌우하는 결정적인 요소입니다. 특히 분산된 여러 노드에서 병렬 처리를 수행하는 경우 노드 간 또는 스토리지와 컴퓨트 간의 데이터 전송이 빈번합니다. 그러다 보니 네트워크 지연(latency)과 대역폭(bandwidth)이 전체 속도를 좌우합니다. 일반적인 기업 데이터센터 네트워크로는 대용량 AI 데이터 이동을 감당하기 어려워 저지연·고대역폭 네트워크 설계가 필요합니다.

예를 들어 분산 훈련에서는 1Gbps 수준의 전통적인 이더넷으로는 심각한 병목이 발생합니다. 이에 업계에서는 40~400Gbps 이상의 고속 이더넷이나 인피니밴드(InfiniBand)와 같은 HPC(고성능 컴퓨팅)급 네트워킹을 추천합니다. 서버 내부의 네트워크 성능도 따져봐야 합니다. 멀티 GPU 서버 내부에서는 NVLink나 PCIe 5.0과 같은 초고속 인터커넥트를 활용해 GPU 간 데이터 교환 속도를 높일 수 있습니다.

요약하자면 AI 인프라의 신경망에 해당하는 네트워크를 튼튼히 구축해야만, 뛰어난 GPU/CPU 자원을 충분히 활용하여 병목 없이 대용량 데이터를 주고받을 수 있습니다. 관련해 조언을 짧게 하자면 노드 간 통신이 많은 훈련 워크로드의 경우 전용 스위치와 고속 프로토콜을 지원하는 네트워크 구성을 채택하고, 추론 서비스의 경우에도 클라이언트와 서버 간 저지연 경로를 보장하도록 로드밸런서 및 프록시 등을 최적화하거나 엣지 서버나 장치를 활용하는 시나리오를 적용하는 것이 좋습니다.

스토리지: 접근 속도와 용량의 균형 관리

데이터 스토리지는 AI 워크로드에서 연산 능력만큼이나 중요한 자원입니다. AI 모델 학습에는 종종 수십 TB 이상의 데이터셋이 필요하며, 추론 서비스 역시 대량의 피드백 데이터를 저장하거나 자주 참조해야 할 모델 파일을 로드하는 등 스토리지 I/O 작업이 빈번하게 발생합니다. 따라서 스토리지는 용량과 속도 모두 신중하게 고려해 설계해야 합니다. 훈련 워크로드에서는 GPU가 초당 수 GB 이상의 데이터를 소비할 수 있습니다. 고성능 SSD, 특히 NVMe SSD 기반 스토리지를 통해 높은 순차 읽기 속도를 제공하는 것을 권장합니다. 만약 대용량 HDD로만 구성된 스토리지를 사용하면, 디스크의 낮은 I/O 속도로 인해 GPU가 데이터 로딩을 기다리며 유휴 상태가 되어 전체 훈련 속도가 저하됩니다.

한편, 스토리지 용량도 간과할 수 없습니다. AI 프로젝트가 진행될수록 데이터는 기하급수적으로 증가합니다. 따라서 확장 가능한 대용량 스토리지를 준비해야 합니다. 효과적인 전략은 다계층 스토리지(tiered storage)를 구축하는 것입니다. 자주 접근하는 핫 데이터는 고속 SSD 어레이에 저장하여 실시간 처리 성능을 보장하고, 장기간 보관해야 하는 방대한 원본 데이터나 이전에 학습한 모델 체크포인트 등의 콜드 데이터는 객체 스토리지나 대용량 HDD 어레이에 보관하여 비용 효율을 높입니다.

예를 들어 이미지나 영상 데이터의 경우 최근 몇 주 치 데이터는 NVMe SSD에 저장하고, 그 이전 데이터는 접근 빈도가 낮은 스토리지로 옮겨두는 방식입니다. 또한, 병렬 파일 시스템이나 분산 스토리지를 도입하면 여러 노드가 동시에 데이터에 접근하는 환경에서 스케일 아웃(scale-out) 방식으로 스토리지 성능을 확장할 수 있어 유용합니다. 단, 이때 네트워크 성능이 뒷받침되어야 하므로 스토리지와 컴퓨트 간 네트워크 설계를 함께 고려해야 합니다. 즉, AI용 스토리지 최적화의 핵심은 속도와 용량의 균형을 맞추는 것이 중요하다는 소리입니다.

여기까지 Part 2 내용을 정리해 보았습니다. 다음 회에서는 전력 및 냉각, 병렬 처리, 맞춤형 스택 측면에서 AI 워크로드 최적화 인프라 설계 방안을 소개하겠습니다.

AI 워크로드 최적화 인프라 시리즈 - Part 2: 최적화 포인트1 - 프로세서, 네트워크 I/O, 스토리지

GPU vs CPU: 적합한 프로세서 선택과 구성 비율 최적화

네트워크 I/O: 고대역폭·저지연 내부망 구축

스토리지: 접근 속도와 용량의 균형 관리

최근 게시물

댓글