AI 데이터센터의 시대! 이더넷의 새로운 가치 발견
- Chang Sun Park
- 2024년 12월 23일
- 4분 분량
AI 워크로드 처리와 거대 언어 모델 훈련 관련 성능을 이야기할 때 빠지지 않는 주제가 네트워크 대역폭과 성능 병목입니다. 왜 이런 이야기가 나올까요? 이번 포스팅에서는 그 이유와 AI 데이터센터 시대에 새롭게 가치를 평가받고 있는 차세대 이더넷 기술에 대해 알아보겠습니다.
AI 인프라에서 네트워크가 병목 구간이 되는 이유
네트워크가 문제인 이유를 먼저 기술적 측면에서 살펴보겠습니다. AI 모델 훈련은 수십억수조 개의 파라미터를 다루는 작업입니다. 자원 집약적인 작업이라 표현을 합니다. 보통 크기가 큰 AI 모델 훈련은 GPU나 TPU 같은 엑셀러레이터(XPU) 수백수천 개에 분산해 연산을 처리합니다. 이 단계를 마친 뒤에는 각 프로세서가 서로 데이터를 주고받아 합산하고, 다시 다음 연산 단계로 넘어갑니다. 이와 같이 ‘연산→교환→통합’이라는 순환 작업의 성능은 네트워크 속도와 직결되어 있습니다. 쉽게 말해 네트워크 지연이나 병목현상이 발생하면 전체 작업 시간이 크게 늘어난다는 소리입니다.
현장에 가보면 성능 좋은 최신 장비로 네트워크 인프라를 구성해도 속도에 대한 목마름이 사라지지 않는다고 말합니다. 이유는 간단합니다. 트래픽 양이 상당하기 때문입니다. 단순히 GPU 간 데이터 전송이라고 해도, 실제 트래픽 양은 기가비트~테라비트 수준으로 빠르게 증가합니다. 각 연산 사이클마다 대규모 행렬과 모델 파라미터가 오가므로 네트워크가 해당 트래픽을 제때 처리하지 못하면 GPU가 연산을 끝내고도 통신 때문에 기다려야 하는 상황이 발생합니다.
양만 많은 것도 아닙니다. 패턴도 복잡합니다. AI 워크로드는 소수의 고대역폭 흐름(Flow)을 장시간 유지하기도 하고, 동적으로 굉장히 많은 양의 세션이 폭발적으로 발생하기도 합니다. 전통적인 네트워크 설계에서는 단일 대역폭만 늘리는 것으로는 한계가 있습니다. 저지연·무손실 특성을 갖춰야 고가의 GPU 자원을 100% 활용할 수 있습니다. 즉, AI 인프라의 핵심 요소인 컴퓨트, 메모리, 스토리지 자원의 발전 속도에 발맞춰 대역폭과 지연 관리 역량을 함께 끌어올리지 않으면 네트워크 계층은 ‘병목 구간’이라는 꼬리표를 떼기 어렵습니다.
인피니밴드가 AI 시대에는 어울리지 않는 이유
아마 이쯤에서 인피니밴드가 있지 않나? 이런 생각을 하는 분들이 많을 것입니다. HPC 환경에서 인피니밴드는 탁월한 대역폭과 저지연, 무손실 특성을 갖춘 고성능 네트워크의 표준으로 자리 잡았습니다. 그러나 AI 워크로드가 HPC와 닮은 점이 있다고 해도 결정적으로 다른 점이 몇 가지 있습니다.
먼저 인피니밴드는 폐쇄형스택에 가깝고, 일반 이더넷 기반 데이터센터 네트워크 인프라와 연결하려면 별도의 게이트웨이나 브리지 장비가 필요합니다. AI가 연구 수준을 넘어 대부분의 엔터프라이즈 시스템, 클라우드 환경과 결합해 나가야 하는 시대에는 이러한 ‘네트워크 사일로’가 큰 단점이 될 수 있습니다.
다음으로 확장성도 문제입니다. 인피니밴드도 대형 클러스터를 구성할 수 있지만 포트 밀도나 케이블링, 운영 효율 측면에서 이더넷 규모 만큼 대규모로 확장하기는 어렵습니다. AI 트레이닝 클러스터는 수백수천, 나아가 수만수십만 개의 GPU를 연결해야 할 수 있는데, 인피니밴드 인프라로 초대형 규모를 관리하는 것은 현실적으로 복잡도와 비용이 매우 높습니다.
마지막 문제점은 생태계에서 찾을 수 있습니다. 이더넷은 1970년대부터 표준화와 개방형 생태계를 통해 급격히 확산되었습니다. 현재도 다양한 벤더와 사용자 커뮤니티가 풍부한 반면, 인피니밴드는 선택지가 제한적이어서 하드웨어·소프트웨어의 가격 경쟁력 및 유지보수 편의성이 떨어지는 편입니다.
정리해보자면 AI 시대에는 백엔드와 프론트엔드 네트워크 간 통합, 멀티 클라우드 및 엔터프라이즈 시스템 연계, 대규모 확장 등 요구 사항이 더 복잡하다 보니 인피니밴드만으로 모든 것을 해결하기 어렵습니다.

이더넷의 재해석이 필요한 이유
그렇다고 “이더넷이 답이다!”라고 말하기엔, 전통적인 이더넷이 제공하는 신뢰성·성능만으로 충분하지 않은 것 또한 현실입니다. AI 시대를 맞아 이더넷도 새로운 방식으로 해석·진화해야 할 필요가 있습니다. 어떤 점들이 개선되어야 할까요?
과거 데이터 센터 이더넷은 어느 정도의 패킷 손실을 감내하고, TCP 재전송을 통해 보정하는 방식이 일반적이었습니다. 하지만 AI 트래픽에서는 패킷 손실이 작업 지연을 심각하게 야기하므로, RDMA(원격 직접 메모리 접근) 같은 기술을 활용한 무손실 전송이 중요합니다. 따라서 PFC(우선순위 기반 흐름 제어), ECN(명시적 혼잡 알림) 등 다양한 이더넷 확장 기능이 필요해졌습니다.
아키텍처의 진화도 필요합니다. AI 환경에서는 수천~수만 개 노드가 서로 데이터를 교환할 수 있도록 네트워크 스위치가 확장 가능해야 합니다. 최근에는 400Gbps, 800Gbps를 지원하는 이더넷 스위치도 등장했고, 멀티-스테이지(leaf-spine) 아키텍처로 스케일아웃하면 실질적으로 원하는 만큼 확장 가능합니다.
이러한 진화는 생태계 측면에서 현재 빠르게 이루어지고 있습니다. 바로 Ultra Ethernet Consortium(이하 UEC)를 구심점으로 현재 이더넷 기술은 차세대를 향해 빠르게 진화하고 있습니다.
Ultra Ethernet Consortium 소개 및 아리스타의 역할
UEC는 2023년 7월 공식 발표된 컨소시엄으로, 대규모 AI/ML 및 HPC 네트워크를 구축·운영해 온 주요 업체들이 모여 “AI 시대를 위한 이더넷의 확장판”을 표준화하고 상호운용성을 검증하기 위해 결성되었습니다. 기존 이더넷 기반을 더욱 단순화·고도화하여 초고속, 무손실, 저지연을 보장하는 현대적인 통신 스택을 구현하려는 목적이 핵심입니다.
UEC는 다양한 부문에서 이더넷 기술을 혁신하고 있습니다. 주목할 만한 내용을 몇 가지 추려 보겠습니다. 먼저 살펴볼 것은 Ultra Ethernet Transport(UET) 프로토콜입니다. 이는 RoCE(RDMA over Converged Ethernet)를 대체 또는 보완하는 새로운 이더넷 전송 프로토콜로, AI 모델이 요구하는 고성능을 제공하되, 기존 이더넷/IP 생태계의 이점을 최대한 유지하려고 합니다. 패킷 손실 이슈, DCQCN 조정 문제, 멀티패스 부재 등 기존 RoCE가 안고 있던 한계를 개선하고, 엔드포인트·프로세스가 기하급수적으로 늘어나는 AI 시나리오에서도 안정적 운영이 가능하도록 설계됩니다.
다음으로 개방성·상호운용성도 강화됩니다. UEC는 프로토콜, API, 소프트웨어 스택을 모듈화하고, 기존 HPC 워크로드에 쓰이는 MPI, PGAS 등과 호환성을 유지하여, 부품·소프트웨어·솔루션 간의 결합 자유도를 높이는 것을 주요 목표로 삼고 있습니다.
UEC를 진두지휘하며 AI 시대에 맞는 새로운 표준을 정립해 나아가는 주역 중 하나가 바로 아리스타(Arista)입니다. 아리스타는 UEC의 창립 멤버로 참여하고 있으며, 가장 앞선 AI 네트워킹 솔루션 중 하나인 Arista Etherlink를 통해 UEC 철학을 구현하고 있습니다. 참고로 Etherlink AI 플랫폼은 저지연·무손실 스위칭 플랫폼(Arista 7060X, 7800R, 7700R4 등)과 EOS 운영체제, AI 에이전트(스마트NIC/서버와 네트워크를 통합 제어) 등을 종합해 딥 러닝 트레이닝에 최적화된 네트워크를 제공합니다. 아리스타는 향후 UEC 표준 스펙이 추가되면 소프트웨어 업데이트 등을 통해 지속적으로 호환성을 유지하고, AI 네트워크 성능을 더욱 개선할 계획입니다. Arista Etherlink 플랫폼에 대해서는 별도 포스팅으로 자세히 다루어 보겠습니다.
차세대 이더넷의 시대에 대한 기대
AI 시대에는 ‘네트워크가 곧 AI 컴퓨팅 성능의 열쇠’라 해도 과언이 아닙니다. 수많은 XPU 간 데이터를 빠르고 안정적으로 주고받아야 하며, 분산 연산 구조 특성상 네트워크가 조금이라도 느려지면 전체 학습 시간이 기하급수적으로 증가합니다. 과거 HPC의 대표 격인 인피니밴드는 엔터프라이즈 통합과 초대규모 확장성 등 측면에서 제약이 많아, AI 시대에는 이더넷에 대한 재조명과 재해석이 불가피합니다. 이더넷은 과거의 기술이 아닙니다. UEC를 중심으로 이더넷이 더욱더 AI 친화적인 표준 스택으로 발전해나아가고 있으며, 이를 통해 AI 혁신이 가속화되고, 나아가 기업과 개인 모두에게 더욱 풍부한 AI 경험을 제공할 것으로 기대됩니다.
Commentaires