AI 워크로드 최적화 인프라 시리즈 - Part 1. AI 워크로드의 특성은?

jiyoung kim
1월 3일
3분 분량

AI 인프라 투자가 경쟁적으로 이루어지고 있습니다. 최신 GPU가 출시되면 ‘쟁탈전’이 일어난다고 표현할 만큼 기업 간 투자 경쟁이 치열합니다. 이런 소식에 가려져 있지만 중요한 트렌드 하나를 놓치면 안됩니다. 바로 ‘워크로드 최적화’입니다. 최근 몇 년 사이에 빅 테크 기업과 클라우드 사업자들을 통해 AI 워크로드 최적화의 중요성에 대한 이야기가 많이 나오고 있습니다. AI 워크로드는 일반적인 엔터프라이즈 컴퓨팅 환경에서 운영하는 워크로드와 특성이 다릅니다. 그러다 보니 워크로드 최적화 측면에서 온프레미스 AI 인프라를 설계하고 구축하는 것은 결코 간단한 일이 아닙니다. 그렇다면 어떤 기술 요소를 고려해야 하며, 어떻게 최적화해야 할까요? 다음과 같은 내용으로 연재를 통해 하나하나 알아보겠습니다.

Part 1: AI 워크로드의 다양한 유형과 각 특성을 이해하고, 이를 인프라 설계에 반영하는 것의 중요성을 살펴봅니다.
Part 2: AI 워크로드의 요구사항을 충족시키기 위한 핵심 기술 요소들 – 프로세서, 네트워크, 스토리지 등을 어떻게 최적화해야 하는지 심층적으로 다룹니다.
Part 3: 남은 최적화 포인트와 함께, 실제 환경에 맞는 맞춤형 AI 스택 전략을 수립하고 운영하는 방안, 그리고 시리즈 전체를 마무리하는 내용을 전달합니다.

<Part 1. AI 워크로드의 특성은?>

AI 인프라 구축은 매우 큰 비용이 들어가는 투자입니다. 따라서 현재 요구와 미래 수요까지 고려해 투자 전략을 수립해야 합니다. 아마 규모와 성능을 중심으로 방향을 잡을 텐데요. 이 작업을 할 때 AI 워크로드의 특성에 대한 이해를 전제로 사이징을 해야 합니다. 풀어 설명하자면 효과적인 인프라를 설계하려면 AI 워크로드 특성을 깊이 이해하고, 주요 기술 요소를 최적화해야 합니다. 또한, 전체 스택을 조직에 맞게 구성하는 전략적 고려도 중요합니다.

워크로드 유형별 특성을 반영한 설계의 중요성

AI 개발 과정에는 데이터 전처리, 모델 훈련(Training), 추론(Inference) 등 다양한 종류의 워크로드가 있습니다. 이들은 유형에 따라 각각 자원 소모 형태와 처리 방식이 다릅니다. 이러한 차이를 인프라 설계에 반영해야 하는 이유는 명확합니다. 모든 워크로드에 일괄적인 인프라를 적용하면 성능 비효율이나 자원 낭비가 발생하기 때문입니다.

예를 들어 딥러닝 모델 훈련 작업은 대규모 데이터셋을 반복 처리하며 막대한 연산을 수행합니다. 이런 작업의 경우 다수의 GPU와 멀티코어 CPU 자원을 집중적으로 투입하여 훈련 시간을 단축하는 것이 중요합니다. 훈련용 데이터가 크고 다양하기 때문에 이를 저장하고 전송할 네트워크 대역폭과 스토리지 용량 역시 충분히 확보해야 합니다. 또한, 훈련 인프라는 다른 업무와 자원을 공유하지 않는 전용 환경으로 최적화하는 것이 바람직합니다. 일반 데이터센터 클러스터의 유휴 자원을 AI 훈련에 활용하면 성능과 정확도 저하를 초래할 수 있습니다.

반면에 AI 추론 워크로드는 훈련된 모델을 실제 서비스에 투입해 새로운 데이터에 대한 예측을 실시간으로 수행합니다. 개별 추론 작업의 연산량은 훈련보다 적습니다. 이런 유형의 작업은 응답 지연을 최소화하는 것이 관건입니다. 따라서 추론 서버는 훈련 클러스터만큼 고성능일 필요는 없지만, 지연 시간을 최소화하도록 특화된 하드웨어로 구성해야 합니다. 예를 들자면 NPU를 장착한 엣지 서버나 장치를 활용해 네트워크 대역폭이나 지연 시간에 대한 걱정 없이 원활한 추론 작업을 수행하는 것을 떠올려 볼 수 있습니다.

또한, 서비스 중단 없이 여러 요청을 처리하려면 높은 I/O 처리량과 충분한 메모리가 필요합니다. 메모리 내에 훈련된 모델과 입력 데이터를 모두 적재해 스토리지 접근 없이도 빠르게 추론할 수 있어야 합니다. 이를 위해 추론 서버는 훈련 서버보다 저전력이더라도 메모리 대역폭이 높고 지연이 낮은 구성을 하는 것이 좋습니다.

데이터 전처리 작업의 특성도 고려해야 합니다. 이는 모델 학습 전에 방대한 원천 데이터를 수집하고 정제하여 학습에 적합한 형식으로 가공하는 단계입니다. 이 과정에서는 추출(Extract), 변환(Transform), 적재(Load)로 구성된 ETL 프로세스를 통해 대용량 데이터를 다룹니다. 전처리는 일반적으로 CPU 위주의 연산과 대량의 데이터 I/O가 특징이며 경우에 따라 분산 처리 프레임워크를 사용하여 병렬 성능을 높입니다.

예를 들어 수십 테라바이트(TB)에 이르는 로그 데이터를 정제하려면 Apache Spark 같은 도구로 여러 서버에서 병렬 연산을 수행하고, 고속 스토리지에서 데이터를 읽어와 처리하는 구조가 필요합니다. 이러한 데이터 준비 작업을 원활히 처리하지 못하면 이후 훈련 및 추론 단계의 속도와 품질이 모두 저하될 수 있습니다. 따라서 해당 워크로드에 맞게 멀티코어 CPU, 메모리 용량, I/O 대역폭 등을 충분히 확보해야 합니다.

워크로드 특성을 고려하지 않는 다면?

그렇다면 AI 워크로드의 특성을 반영하지 않고 인프라를 설계하면 어떤 문제가 생길까요? AI 워크로드 유형별 요구 사항을 설계에 반영하지 않으면 성능 불균형과 자원 낭비가 발생합니다. 예를 들어 추론만 간단히 수행하는 서비스에 지나치게 성능이 높은 훈련용 GPU 서버를 배치하면 비용 대비 활용도가 떨어질 것입니다. 반대로 방대한 딥러닝 훈련을 수행해야 하는데 소규모 CPU 서버 위주로 인프라를 구성하면 훈련이 현실적으로 불가능해질 수 있습니다.

또한, AI 훈련과 추론은 전력 소모와 발열 측면에서도 큰 차이가 있습니다. 대규모 딥러닝 훈련 클러스터는 일반 IT 워크로드보다 랙당 소비 전력이 훨씬 높습니다. 따라서 공랭 외에 수랭 방식 등 다양한 방식을 인프라 설계에 반영해야 합니다. 반면에 추론 시스템은 상대적으로 전력 소모가 적어 기존 공랭 방식으로도 충분한 경우가 많습니다. 이러한 차이는 결국 인프라 설계 전략의 차별화 필요성을 잘 보여줍니다. 정리하자면 AI 워크로드별 특성을 무시하고 일률적으로 인프라를 구축해서는 안 됩니다. 훈련, 추론, 데이터 처리 등 각 작업의 목적에 맞게 최적화된 구성을 갖춰야 합니다.

AI 워크로드 최적화 인프라 시리즈 - Part 1. AI 워크로드의 특성은?

<Part 1. AI 워크로드의 특성은?>

워크로드 유형별 특성을 반영한 설계의 중요성

워크로드 특성을 고려하지 않는 다면?

최근 게시물

댓글