AI 워크로드 최적화 인프라 시리즈 - Part 3: 최적화 포인트 2 – 전력 및 냉각, 병렬 처리
- Chang Sun Park
- 5월 30일
- 3분 분량
Part 2에서는 AI 워크로드의 까다로운 요구사항을 만족시키기 위한 온프레미스 인프라 최적화 방안 중 프로세서(GPU/CPU), 네트워크 I/O, 스토리지에 대해 자세히 살펴보았습니다. Part 3에서는 지난 회에 이어 핵심 기술 요소 최적화의 나머지 부분인 ‘전력 및 냉각’ 문제와 ‘병렬 처리 효율 및 스케일 아웃’ 전략을 다루어 보겠습니다.
전력과 냉각: 고밀도 인프라를 지탱하는 기반
온프레미스 환경에서 전력 공급과 냉각 설비는 AI 인프라의 물리적 한계를 결정하는 요소입니다. 앞선 파트에서 언급한 바와 같이 AI 워크로드, 특히 모델ㄹ 훈련 클러스터의 전력 소모와 발열은 기존 IT 워크로드에 비해 압도적으로 높을 수 있습니다. 실제로 최신 AI 전용 서버인 NVIDIA DGX H100 한 대의 최대 전력 소모는 10.2kW에 달하며, 여러 대의 GPU 서버로 랙을 구성하면 랙당 수십kW에서 100kW 이상의 전력이 필요한 상황도 현실화되고 있습니다.

이렇게 밀집도가 높은 AI 인프라를 운영하려면 충분한 전력 공급 인프라를 갖춰야 합니다. 개별 랙 단위로 고용량 PDU(전력분배장치)를 설치하고 이중화된 전원 경로를 구성하여 안정적으로 전력 피크를 처리해야 합니다. 전력 용량 부족이나 순간 정전은 즉시 시스템 다운과 학습 중단으로 이어져 막대한 손실을 초래할 수 있으므로, 무정전 전원공급장치(UPS) 및 백업 발전 설비도 AI 인프라 용량에 맞게 증설해야 합니다.
냉각(cooling) 측면에서 보면 기존 공조 시스템만으로는 방출되는 열을 감당하지 못할 가능성이 높습니다. 공랭식 데이터센터는 랙당 5~10kW 정도의 발열을 처리하도록 설계된 경우가 많지만 AI 클러스터는 이 한계를 훨씬 뛰어넘기 때문입니다. 이 때문에 액체 냉각(liquid cooling) 기술이 부상하고 있습니다. 냉각수를 이용한 직접 칩 냉각(DLC), 냉각수 코일이 장착된 후면 도어(rear-door) 방식, 침지 냉각(immersion cooling) 등 여러 기법이 상용화되어 고열 밀도 서버에 적용되고 있습니다. 물론 모든 AI 워크로드에 액체 냉각이 필요한 것은 아닙니다. 추론 서버처럼 비교적 저전력인 경우 기존 공랭 방식으로 충분할 수 있습니다.
한편, 냉각 효율은 단순히 장비 온도 유지만이 아니라 전체 에너지 효율(PUE: Power Usage Effectiveness)과도 직결되므로, 최신 AI 데이터센터들은 냉각 최적화에 큰 투자를 기울이고 있습니다. 가령 AI 인프라 설계 시에는 전력 공급 능력과 냉각 용량을 최우선으로 고려해야 합니다. 기존 시설로는 이러한 요구를 충족시키기 어려울 수 있으므로, 데이터센터 차원의 설비 업그레이드까지 계획에 포함해야 한다는 것이 AI 인프라 업계의 공통된 의견입니다.
병렬 처리 효율과 스케일 아웃: 최대 성능을 끌어내는 구조
AI 워크로드는 병렬 처리를 통해 비로소 현실적인 시간 내에 결과를 얻을 수 있습니다. 여기에는 단일 장비 내 병렬화와 여러 장비 간 병렬화 두 가지 측면이 있습니다. 단일 서버 내부에서는 여러 GPU가 서로 긴밀히 협력하여 하나의 작업을 나누어 처리하는 경우가 많습니다. 이러한 멀티 GPU 병렬 처리 효율을 높이기 위해, 앞서 언급한 고속 인터커넥트로 GPU 간 통신을 가속하고, NUMA노드 구성 최적화 등을 통해 CPU, 메모리, GPU 간 데이터 흐름 지연을 줄이는 튜닝이 필요합니다. 또한, 배치 크기나 데이터 병렬 처리, 모델 병렬 처리 등을 조절하여 하드웨어 자원을 최대한 활용하도록 딥러닝 프레임워크 설정을 조정하는 것도 중요합니다.

여러 서버를 이용한 병렬화(스케일아웃) 측면에서는 분산 컴퓨팅 프레임워크의 선택과 네트워크 및 스토리지 아키텍처가 성능에 큰 영향을 미칩니다. 분산 환경에서 노드 추가에 따른 성능 확장성을 극대화하려면, 모델 파라미터 동기화 알고리즘 최적화와 통신 병목 해소 기법도 고려해야 합니다. 스케일 업과 스케일 아웃 간의 균형도 중요합니다. 한 대의 서버에 최대한 많은 자원을 투입하는 스케일업 방식은 초기에는 효율적일 수 있으나 물리적 한계에 곧 도달하기 때문에 일정 규모 이상에서는 서버 대수를 늘리는 스케일 아웃으로 전환하여 선형적인 성능 향상을 추구하는 것이 바람직합니다.
현대적인 AI 인프라는 클러스터 단위로 확장성을 염두에 두고 설계합니다. 이때 모듈식 구조로 노드를 증설하거나 신기술 도입 시 일부만 교체해도 전체 시스템이 유기적으로 확장하고 발전할 수 있게 하는 것이 이상적이라 할 수 있습니다.
성공적인 AI 혁신을 위한 온프레미스 인프라 전략
지금까지 3회로 구성한 포스팅 시리즈를 통해 AI 워크로드에 최적화된 온프레미스 컴퓨팅 인프라 설계의 주요 고려 사항을 살펴보았습니다. 온프레미스 AI 인프라 구축은 단순한 기술 도입을 넘어, 기업의 데이터 주권을 확보하고 AI 혁신을 가속화하기 위한 전략적 투자입니다. 비록 초기 구축과 운영에 많은 노력과 전문성이 요구되지만, 장기적으로는 기업 특화된 AI 역량을 내재화하고 경쟁 우위를 확보하는 데 핵심적인 역할을 할 것입니다. AI 기술은 끊임없이 발전하므로, 현재의 요구사항을 충족시키는 동시에 미래의 변화에도 유연하게 대응할 수 있는 인프라를 설계하고 지속적으로 개선해 나가는 노력이 필요합니다. 우리 조직에 필요한 AI 워크로드 최적화 기반 AI 인프라 설계와 구축에 대한 더 자세한 조언이 필요하다면 대원씨티에스가 도움을 드리겠습니다.



댓글