차세대 AI 인프라를 이끌 NVIDIA Blackwell과 Supermicro Building Block 솔루션

Chang Sun Park
2월 19일
3분 분량

요즘 AI와 HPC 분야가 발전 속도는 어지러울 정도로 빠릅니다. 최근 많은 이들이 주목하는 것은 아마 NVIDIA Blackwell GPU일 것입니다. 관련해 이번 포스팅에서는 NVIDIA Blackwell에 대해 간단히 알아보고 2월 초 슈퍼마이크로가 Blackwell GPU(이하 Blackwell) 기반 Building Block 솔루션을 양산한다고 발표한 내용을 간단히 정리해보겠습니다.

NVIDIA Blackwell이 향후 AI 인프라 환경에 끼칠 영향

NVIDIA는 Blackwell을 통해 엄청난 수의 트랜지스터(약 2,080억 개)를 탑재해 전 세대보다 훨씬 복잡하고 큰 AI 모델을 처리할 수 있게 했으며, 10TB/s에 달하는 NVLink-HBI 기반 인터커넥트로 여러 개의 GPU를 하나처럼 묶어 메모리 대역폭을 크게 확장했습니다. 또한, 5세대 NVLink와 NVLink Switch가 최대 576개의 GPU를 상호 연결해 수조 개의 매개변수를 가진 초대형 모델도 빠른 속도로 학습할 수 있습니다. 성능과 관련해 엔비디아 CEO 젠슨 황이 밝힌 ‘특정 조건에서 50배 가까운 추론 성능 향상 가능성’에 대해서도 뜨거운 관심이 이어지고 있습니다.

거의 년 단위로 이전 세대 성능을 크게 뛰어 넘는 고성능 GPU가 등장하고 있습니다. 그러다 보니 데이터센터의 냉각 방식에 대한 관심이 높아지고 있습니다. Blackwell급 GPU가 소모하는 전력과 발열량은 상당합니다. 따라서 기존 공랭식만으로는 높은 에너지 사용과 발열 제어에 어려움이 커질 수 있습니다. 이에 수랭식(Direct Liquid Cooling) 솔루션이 새롭게 주목받고 있습니다. 액체 냉각 방식은 공기 냉각보다 냉각 효율이 높고, GPU나 CPU를 비롯한 주요 부품의 온도를 안정적으로 유지할 수 있어 장비 수명 연장과 전반적인 운용 비용 절감에도 도움이 됩니다. 다만, 액체를 사용하는 특성상 누수에 대한 관리가 필요하고 초기 구축 비용이 높을 수 있어, 데이터센터 환경에 따라 적절한 균형점을 찾는 것이 중요합니다.

슈퍼마이크로의 Building Block 포트폴리오

이러한 흐름에 발맞춰 슈퍼마이크로는 Blackwell 아키텍처를 기반으로 하는 다양한 Building Block 솔루션을 선보였습니다. 슈퍼마이크로의 Building Block 포트폴리오는 서버, 스토리지, 네트워킹 등을 모듈 단위로 최적화해 고객의 필요에 맞게 조합할 수 있도록 설계된 것이 특징입니다. 조금 더 상세히 알아 볼까요. 8개의 Blackwell GPU를 탑재한 4U NVIDIA HGX B200 시스템은 액체 냉각 또는 공랭 방식으로 구성할 수 있는데, 새롭게 개발된 콜드 플레이트와 250kW 쿨런트 디스트리뷰션 유닛(CDU)을 통해 이전 세대 대비 냉각 능력을 2배 이상 높였습니다. 최대 52U의 랙 구성을 활용하면 한 랙에 96개의 GPU까지 밀집 배치할 수 있어 대규모 AI 클러스터를 구축할 때 큰 이점을 제공합니다. 공랭 환경에 특화된 10U NVIDIA HGX B200 시스템 역시 8개의 Blackwell을 수용하면서도 기존 세대 대비 최대 15배의 추론 성능, 3배의 학습 성능을 제공한다는 점이 눈길을 끕니다.

또한, 슈퍼마이크로가 새롭게 발표한 NVIDIA GB200 NVL72 기반 SuperCluster 솔루션은 한 랙에 72개의 Blackwell과 36개의 Grace CPU를 통합해 엑사스케일에 가까운 연산 성능을 발휘하도록 설계되었습니다. 특히 랙 스케일 설계와 수직 냉각수 분배 매니폴드(CDM)를 채택해 공간 효율성을 극대화했고, 수랭식 구조를 통해 밀집된 GPU 구성에서도 우수한 냉각 효율을 구현할 수 있습니다. 이는 규모가 큰 연구소나 초거대 AI 모델을 운영하는 클라우드 서비스 업체에게 적합하며, Google Cloud가 선보인 Blackwell B200 GPU 기반 A4 VM처럼 클라우드 환경으로 확장하는 사례도 늘어나는 추세입니다. A4 VM은 이전 세대 대비 더 높은 GPU 연산 성능과 HBM 용량을 바탕으로, 대규모 AI 모델의 훈련과 미세 조정뿐 아니라 지연 시간이 짧은 실시간 서비스에도 안정적인 성능을 제공합니다.

슈퍼마이크로의 Building Block 포트폴리오가 강점을 발휘하는 또 다른 부분은 바로 NVIDIA AI Enterprise 소프트웨어 플랫폼과의 긴밀한 연동입니다. NVIDIA AI Enterprise는 클라우드 네이티브 아키텍처와 마이크로서비스를 기반으로, AI 모델 개발과 배포, 추론 과정을 간소화하고 보안을 강화해 줍니다. 이 플랫폼을 슈퍼마이크로 Building Block 시스템에 네이티브로 적용하면 온프레미스나 퍼블릭 클라우드, 하이브리드 환경 등 다양한 인프라에서 AI 워크로드를 유연하게 운영할 수 있습니다.

더 강력한 AI 인프라 예고

정리하자면 NVIDIA Blackwell 아키텍처는 차세대 AI 워크로드를 위한 뛰어난 성능과 확장성을 갖추고 있으며, 슈퍼마이크로의 Building Block 포트폴리오는 이러한 아키텍처를 최적의 형태로 구현하는 견고한 기반을 제공합니다.

슈퍼마이크로의 Building Block 솔루션과 NVIDIA Blackwell 아키텍처, 그리고 NVIDIA AI Enterprise 간의 시너지 효과는 VAST Data 플랫폼을 통해 극대화할 수 있습니다. 가령 올 해 정식으로 출시될 예정인 VAST Insight Engine과 같은 실시간 시맨틱 데이터베이스 플랫폼까지 함께 도입하면, 데이터 이동을 최소화하면서도 거대한 데이터셋을 안전하고 빠르게 분석할 수 있어 기업의 의사결정 속도를 끌어 올릴 수 있습니다. .

Blackwell과 슈퍼마이크로 Building Block의 결합이 앞으로 어떤 혁신과 가치를 만들어낼지 주목해야 하지 않을까요? 더 자세한 내용이 궁금하시면 대원씨티에스로 문의 바랍니다.

#대원씨티에스 #DIA_Nexus # NVIDIA #Blackwell #Supermicro #Supermicro_Building_Block

차세대 AI 인프라를 이끌 NVIDIA Blackwell과 Supermicro Building Block 솔루션

최근 게시물

Comments