Arista와 손잡고 AI 센터의 시대를 열고 있는 Meta

Chang Sun Park
2월 6일
3분 분량

AI 시장이 급격히 변화함에 따라, 데이터센터 인프라 역시 확장성과 효율성을 동시에 갖춰야 하는 새로운 도전에 직면하고 있습니다. 특히 최근에는 멀티 모달 언어 모델(MMLM)과 거대 언어 모델(LLM), 소형 언어 모델(SLM) 분야가 폭발적으로 발전하면서 예전보다 훨씬 높은 대역폭과 복잡한 작업 부하를 감당할 수 있는 고성능 네트워크 인프라가 절실해졌습니다. Meta 역시 이러한 흐름 속에서 초대형 AI 인프라를 구상하고 연구·개발에 매진해 왔습니다.

대규모 AI 워크로드에 맞는 네트워크 필요성

Meta의 AI 인프라는MMLM, LLM과 같은 초대형 모델이 빠른 속도로 확장함에 따라 네트워크 규모 자체가 폭발적으로 커졌습니다. 예전에는 10G 이더넷에 수백 노드만 있어도 충분했지만, 이제는 400G~800G 이더넷으로 XPU 기반 노드를 수천 개까지 연결해야 합니다.

고성능·저지연 요구사항을 수용하려면 무손실 전송과 안정적인 고속 인터페이스가 필수입니다. 또한, 컨테이너 기반 MLOps 파이프라인이 가능하도록 오픈 네트워킹에 친화적인 인프라가 필요합니다. 관련해 Meta는 자사의 초대형 AI 센터에서 요구하는 고성능 네트워킹을 위해 Arista와 협력하여7700R4 Distributed Etherlink Switch(DES)를 중심으로 한 아키텍처를 구현하기로 결정을 했습니다.

Meta가 Arista를 선택한 데에는 먼저 오랜 HPC 및 AI 네트워킹 경험이라는 강점이 작용했습니다. 석유·가스, 금융, 의료 등 다양한 분야의 대규모 HPC 시스템에 다년간 솔루션을 공급해 온 Arista는 대역폭 확대, 고급 트래픽 관리 등 AI 워크로드가 요구하는 핵심 기술을 이미 검증해 왔습니다.

또한, Arista 7800R4, 7700R4 시리즈 등은 수천 포트 규모의 400G~800G 속도를 처리할 수 있을 만큼 확장성이 높고, 2계층 또는 3계층 리프-스파인 아키텍처를 구성하기에도 유연합니다. Meta가 주도하는 OCP(Open Compute Project) 및 Ultra Ethernet Consortium 등을 통해 여러 벤더와의 상호 운용성을 보장하며, RoCE, 무손실 이더넷, DSF(분산형 예약 패브릭) 등 미래 지향적인 AI 인프라에도 대응할 수 있도록 설계된 점 역시 Arista 솔루션의 경쟁력입니다.

어떻게 구성하고 활용하고 있을까?

Meta는 기존 모듈형 스위치 한 대로 전부 감당하기 어려운 대규모 AI 트래픽에 대응하기 위해 Arista 7700R4 DES 플랫폼을 기반으로 하는 분산형 아키텍처를 구현했습니다. 이 솔루션은 단일 시스템처럼 보이지만 내부적으로는 여러 독립 노드가 VoQ(가상 출력 큐) 기반 버퍼링을 활용해 무손실 전송을 보장하고, 자동 로드 밸런싱을 통해 별도의 튜닝 없이도 100%에 가까운 효율로 패킷을 전송하도록 설계되었습니다.

또한, 이 아키텍처는 400G 포트를 기본으로 사용하면서도, 추후 800G 포트로 업그레이드가 가능하도록 모듈형 확장성을 갖추고 있습니다. 이를 통해 향후 AI 워크로드가 더욱 확장되더라도, 큰 구조 변경 없이 단계적으로 성능을 향상할 수 있습니다.

마지막으로 Arista 7700R4 DES는 고급 트래픽 분석 기능과 장애 복구 프로세스를 지원해 수 밀리세컨드 단위로 링크 장애를 감지하고 재라우팅을 수행합니다. 자동화된 모니터링 및 원격 측정 기능도 제공되어, 전체 클러스터의 성능과 상태를 종합적으로 파악하고 신속히 대응할 수 있습니다.

기대 효과 1: 무손실 전송과 안정된 대역폭

MMLM, LLM이나 딥러닝 파이프라인에서는 네트워크 패킷 손실이 연쇄 지연을 일으켜 학습 속도를 크게 저하할 수 있습니다. Arista 7700R4 DES는 VoQ와 셀 기반 패브릭 아키텍처를 통해 무손실 전송에 가까운 성능으로 AI 센터를 안정적으로 운영할 수 있게 해줍니다.

기대 효과 2: 간소해진 운영과 확장

Arista의 솔루션은 초기 튜닝이나 특수 NIC가 거의 필요 없고, 장애 발생 시에도 자동 재라우팅으로 빠르게 복구가 가능합니다. 또한, 메인 데이터센터 측에서는 7700R4 DES를 이용해 초고속 백본을 구성하여 2~3계층 스파인 아키텍처로 AI 클러스터를 유연하게 확장할 수 있습니다.

기대 효과 3: 오픈 생태계와 미래 대응

Meta와 Arista는 OCP와 Ultra Ethernet Consortium을 비롯한 업계 전반과 협력하여, 대규모 로드 밸런싱과 혼잡 관리를 단순화하는 DSF(분산형 예약 패브릭) 등 차세대 네트워크 기술을 꾸준히 발전시키고 있습니다. 또한, 400G/800G 업그레이드 경로로 미래 하드웨어 변화에도 유연하게 대응하며, Meta의 FBOSS와 Arista의 EOS 등 오픈 소스 또는 벤더 통합 방식을 통해 다양한 옵션을 제공합니다.

정리하자면 AI 인프라와 오픈 하드웨어가 결합하는 흐름 속에서 Meta와 Arista가 구축한 분산형 아키텍처는 확장성, 유연성, 효율성을 제공하며, AI가 폭발적인 성장을 지속할 수 있는 든든한 기반을 제공합니다.

#Meta #Arista #AI_센터 #LLM #MMLM #OCP #대원씨티에스

Arista와 손잡고 AI 센터의 시대를 열고 있는 Meta

최근 게시물

Comments