하이퍼스케일러·프런티어 모델 기업이Arista와 함께 AI 데이터센터를 설계하는 이유

Chang Sun Park
21시간 전
5분 분량

AI 인프라 투자 경쟁이 격화되고 있습니다. AWS, Google Cloud, Microsoft와 같은 하이퍼스케일러는 기가와트급 AI 데이터센터 구축 계획을 연이어 공개하고 있으며 OpenAI, Anthropic과 같은 프런티어 모델 기업의 컴퓨팅 수요도 지속적으로 증가하고 있습니다. 이러한 흐름 속에서 AI 데이터센터의 설계 패러다임은 근본적인 전환기를 맞이하고 있습니다. 그 방향성은 과연 어디를 향하고 있을까요. 이에 대한 명확한 단서를 최근 Arista Networks 공식 유튜브 채널에 업로드된 영상에서 확인할 수 있습니다. Meta, Microsoft, Google Cloud, Arm, AMD, Cerebras, OpenAI, Anthropic의 인프라 최고책임자와 CEO가 함께한 이번 인터뷰는 AI 데이터센터 설계의 새로운 청사진을 제시합니다.

https://www.youtube.com/watch?v=bbsm4yWzPMY

AI 데이터센터 설계 패러다임의 전환

기존 데이터센터 설계는 개별 구성요소를 조합하는 방식에 머물러 있었습니다. 특정 칩을 선정하고, 해당 칩에 부합하는 서버를 구축한 후 네트워크를 구성하며, 마지막으로 전력 및 냉각 설비를 맞추는 순차적 접근이 일반적이었습니다. Microsoft Azure 하드웨어 시스템 및 인프라 부문 책임자인 Rani Borkar 사장은 이러한 전통적 접근이 현 시점에는 한계에 도달했다고 지적합니다.

“칩, 랙, 네트워크, 냉각, 데이터센터 설계, 소프트웨어까지 모든 요소가 통합되어야 합니다. 우리는 AI 인프라를 하나의 유기적인 시스템으로 설계합니다.” — Rani Borkar, Microsoft Azure 하드웨어 시스템 및 인프라 사장

Microsoft는 자체 개발 AI 가속기 Maia와 호환되는 랙이 시장에 부재하여 직접 설계에 나섰습니다. 폐쇄형 액체 냉각 루프를 적용한 AI 전용 캠퍼스 Fairwater를 구축하는 한편 지리적으로 분산된 데이터센터를 하나의 슈퍼컴퓨터처럼 연계하는 전용 AI WAN망을 구축했습니다. 이는 칩부터 광역 네트워크까지 전 계층을 통합 설계한 선례로 평가됩니다.

Meta의 전략 또한 동일합니다. 2026년 1GW 규모 가동을 시작하는 오하이오 Prometheus 캠퍼스와 향후 5GW 이상으로 확장될 루이지애나 Hyperion 캠퍼스를 차례로 구축하고 있습니다. 상용 GPU와 함께 자체 개발 MTIA 칩을 추론 워크로드에 배치하여 비용 효율성을 극대화하고 있습니다. Meta 인프라 총괄 Santosh Janardhan은 이러한 거대 프로젝트에서 네트워크가 차지하는 중요성을 다음과 같이 강조했습니다.

“대규모 인프라를 구축할 때 네트워킹은 컴퓨팅 만큼 중요합니다. 세계에서 가장 강력한 가속기를 보유하고 있다 하더라도 이를 효과적으로 연결하지 못한다면 그 성능을 제대로 활용하지 못하는 것입니다.” — Santosh Janardhan, Meta 인프라 총괄

AMD 데이터센터 솔루션 사업부를 이끄는 Forrest Norrod 수석부사장은 AI 데이터센터 전략의 진화를 다음과 같이 요약합니다.

“AI가 복잡한 에이전틱 시스템으로 진화하면서 성능은 더 이상 가속기 단독의 문제가 아닙니다. 전체 시스템의 문제입니다.” — Forrest Norrod, AMD 수석부사장

이러한 업계 리더들의 발언은 AI 데이터센터가 단순한 장비의 집합이 아닌 하나의 통합된 컴퓨팅 환경으로 진화하고 있음을 명확히 보여줍니다. 최근 AI 팩토리, 토큰 팩토리라는 용어가 업계에서 빈번히 거론되는 배경도 동일한 맥락에서 이해할 수 있습니다.

네트워크, 그 중심에 있는 요소

AI 팩토리나 토큰 팩토리를 완성하려면 칩, 플랫폼, 네트워크, 데이터센터 설비 및 시설까지 통합한 설계가 필수적입니다. 모든 요소가 중요하지만, 그중에서도 특히 긴밀한 파트너십이 요구되는 분야는 바로 네트워킹입니다. Arista가 공개한 영상에 등장한 8명의 리더는 모두 AI 성능은 결국 연결에서 완성된다는 공감대를 바탕으로 Arista와의 협력 배경을 설명합니다.

Meta와 Arista의 협력 관계는 가장 오랜 전통과 깊이를 자랑합니다. Meta는 최신 이더넷 기반 AI 클러스터에 Arista 7700R4 분산형 이더링크 스위치(DES)를 도입하여 약 10만 개 DPU를 수용하는 다계층 패브릭(DSF)을 구현했습니다. Janardhan 총괄은 이 협력의 핵심 가치는 기술 그 자체가 아니라 철학의 공유에 있다고 평가합니다.

“Arista와 Meta는 다양한 네트워크 세그먼트와 여러 제품 세대에 걸쳐 장기적인 파트너십을 구축해 왔습니다. 이 관계의 진정한 가치는 기술적 우수성에만 있는 것이 아닙니다. 우리가 공유하는 철학에 있습니다. 개방형 생태계에 대한 상호 약속은 유연성을 보장하고 벤더 종속을 방지합니다.” — Santosh Janardhan, Meta 인프라 총괄

Microsoft와의 협력은 초기 설계 단계부터 밀접하게 연결되어 있습니다. Borkar 사장은 Arista의 네트워킹 전문성이 대규모AI 시스템을 전체 스택에 걸쳐 통합하는 방식을 함께 만들어가고 있다고 평가합니다. 자체 가속기 Maia와 초대형 AI 데이터센터 Fairwater의 차세대 클러스터가 요구하는 인터커넥트 용량을 양사가 공동으로 정의하고 있다는 의미입니다.

Google Cloud Thomas Kurian CEO는 파트너십의 성과를 구체적으로 밝혔습니다.

“네트워킹은 학습과 추론 양쪽에서 대규모 머신러닝 시스템을 구현하는 핵심 동력입니다. Arista와의 파트너십 덕분에 고성능 라우팅 솔루션을 네트워크에 도입하여 ML 하이퍼컴퓨터를 실현할 수 있었습니다. 이 협력은 현재까지도 지속적으로 확장되고 있습니다.” — Thomas Kurian, Google Cloud CEO

반도체 업계의 움직임 또한 주목할 만합니다. Arm의 Rene Haas CEO는 컴퓨팅과 네트워킹을 병렬로 설계하며 최적화한다며 하이퍼스케일러 AI 학습부터 엣지 추론까지 협력 범위를 확대하고 있다고 밝혔습니다. AMD의 Norrod 수석부사장 역시 개방형 표준 기반 이더넷이 AI 확장의 올바른 토대라는 신뢰를 Arista와 공유한다고 강조했습니다.

웨이퍼 스케일 엔진으로 유명한 Cerebras의 Andrew Feldman CEO는 창업 초기부터 Arista의 고객이었다고 밝혔습니다.

“접시 크기의 웨이퍼 스케일 칩으로도 수백 대, 많게는 수천 대의 시스템을 통합해야 합니다. Arista 스위치와 100, 400, 800GbE 이더넷을 통해 머신을 연결하고 있습니다. 회사 창립 초기부터 Arista를 신뢰해 왔습니다.” — Andrew Feldman, Cerebras Systems 공동창업자 겸 CEO

프런티어 모델 기업의 시각도 중요합니다. OpenAI의 Sam Altman CEO는 AI 워크로드가 네트워크에 요구하는 핵심 조건을 명확히 정의합니다.

“AI 작업에서 네트워크는 모든 GPU 사이클을 최대한 활용하고 병목 현상을 방지할 수 있도록 매우 높은 성능과 효율로 막대한 대역폭을 제공해야 합니다. Arista의 솔루션은 다중 네트워크 경로에 걸쳐 예측 가능한 지연 시간과 안정적인 연결을 제공하여 작업 완료 시간을 개선해주었습니다.” — Sam Altman, OpenAI CEO

Anthropic의 Tom Brown 최고컴퓨팅책임자는 차세대 AI 데이터센터가 충족해야 할 요구사항으로 네 가지 영역을 제시합니다. 확장성과 구축 속도, 처리량과 지연 시간으로 측정되는 성능, 타협 없는 보안, 그리고 사용자가 기대하는 신뢰성입니다. 그는 이러한 요구사항을 충족하기 위해 고성능 네트워킹 리더인 Arista와 협력하기로 했다고 전했습니다.

8명의 인터뷰에서 드러난 공통점은 각자의 전략적 목표는 상이하지만 네트워킹의 중추적 역할에 대해서는 일치된 견해를 가지고 있다는 점입니다. AI 데이터센터에서 네트워크가 최종 성능을 결정하는 핵심 변수라는 데 모든 업계 리더가 동의하고 있습니다.

통합 설계의 성패를 결정하는 피드백 루프와 Arista의 기술 혁신

AI 팩토리 또는 토큰 팩토리의 완성도는 지속적이고 고도화된 피드백 루프에 달려 있습니다. 요구사항을 함께 정의하고, 이를 솔루션으로 구현하며, 실제 워크로드 환경에서 검증한 후 그 결과를 다음 설계 단계에 반영하는 순환 구조가 핵심입니다. 이 피드백 루프가 중요한 이유는 명확합니다. AI 클러스터의 실제 병목 현상은 학습 및 추론 워크로드를 실행해봐야만 드러나기 때문입니다. 세계 최대 AI 클러스터를 운영하는 고객의 현장 데이터를 즉시 제품에 반영할 때 비로소 통합 설계의 완성도가 높아집니다. Arista의 기술 혁신은 바로 이러한 루프의 주요 단계와 맞물려 있습니다.

고객 워크로드 기반 제품 설계: Meta의 DSF에 적용된 7700R4 분산형 이더링크 스위치가 대표 사례입니다. 10만 개 규모 DPU를 수용하는 스케줄드 패브릭 요구사항을 Meta와 공동으로 정의하고 이를 제품화했습니다. 앞서 언급한Microsoft와의 1.6T 협력은 2026년 6월 공개된 7060XE7 시리즈로 결실을 맺었습니다. 단일 시스템에서 100Tbps 처리 용량을 제공하며 LPO 옵틱스를 통해 인터커넥트 전력 소모를 대폭 절감한 이 제품은 Maia와 Fairwater라는 고객 환경의 차세대 요구사항이 제품 사양을 주도한 결과입니다.
소프트웨어 계층의 지능화: Arista의 모든 제품은 단일 운영체제 EOS로 구동됩니다. EOS는 AI 워크로드 특성에 최적화된 기능을 지속적으로 강화하고 있습니다. 실시간 링크 부하를 반영하는 동적 로드 밸런싱(DLB), RDMA 큐 페어 정보를 활용한 RDMA 인지 로드 밸런싱, 집합 통신 패턴을 식별하여 플로우 배치를 최적화하는 클러스터 로드 밸런싱(CLB) 등이 대표 기능입니다. CloudVision과 AVA 기반 가시성 도구는 네트워크 상태와 작업 완료 시간(JCT)의 상관관계를 운영자가 실시간으로 분석할 수 있도록 지원합니다. 고객 현장에서 발견된 이슈를 하드웨어 교체 없이 소프트웨어 업데이트만으로 해결할 수 있는 구조이므로 피드백 루프의 회전 속도가 탁월합니다.
협력 성과를 개방형 표준으로 확산: Arista는 울트라 이더넷 컨소시엄(UEC) 창립 멤버로서 AI 전용 이더넷 표준화를 선도하고 있습니다. OpenAI가 주도한 차세대 네트워킹 프로토콜 MRC(Multipath Reliable Connection) 프로젝트에서도 Arista는 EOS에 SRv6 기반 구현을 추가하며 적극 협력했습니다. MRC는 10만 개 이상의 GPU를2계층 이더넷 스위치만으로 연결하는 새로운 패러다임을 제시했습니다. 개별 고객과의 협력에서 얻은 기술적 성과를 표준으로 정립하여 생태계 전체가 활용할 수 있도록 하는 접근 방식입니다. Meta가 강조한 철학의 공유가 실제 기술로 구현되는 지점입니다.

피드백 루프의 핵심 경쟁력은 속도입니다. 프런티어 모델 기업은 최신 서비스 요구사항을 가장 먼저 수용합니다. 반도체 기업은 차세대 가속기 아키텍처를 선도합니다. 하이퍼스케일러는 초대규모 운영의 실질적 한계를 가장 먼저 경험합니다. Arista는 이들 주요 고객과의 밀접한 협력 관계를 통해 시장 변화를 선도적으로 포착하고 이를 제품 및 AI 네트워크 패브릭 혁신으로 신속히 연결합니다. 이것이 Arista가 시장에서 구축한 본질적 차별점입니다.

AI 성능은 연결에서 완성됩니다

영상의 결론은 명확합니다. 성공은 단일 컴포넌트의 성능이 아닌 전체 시스템이 얼마나 유기적으로 조화를 이루느냐에 달려 있습니다. AI 데이터센터 시대의 설계 철학을 이보다 명료하게 요약한 서술은 찾기 어렵습니다. 이러한 인사이트는 하이퍼스케일러에게만 유효한 것이 아닙니다. 국내 기업과 공공기관이 AI 데이터센터와 AI 클러스터를 구축할 때 동일한 설계 기준이 적용되어야 합니다. 이제 개별 장비의 사양이 아닌 가속기, 네트워크, 스토리지, 냉각, 운영 플랫폼을 하나의 통합 시스템으로 설계할 수 있는 역량이 진정한 경쟁력이 됩니다.

대원씨티스는 Arista를 비롯한 풀스택 AI 솔루션 파트너와 협력하여 사전 최적화한 AI 인프라를 구축하고 있습니다. AI 데이터센터 네트워크 설계와 관련하여 자문이 필요하시다면 언제든지 문의해 주시기 바랍니다.

참고 자료

Arista AI Fabrics for Diverse AI Accelerators and Models

Next-Generation 1.6Terabit Portfolio for AI Fabrics

Meta and Arista Build AI at Scale

The New AI Era: Networking for AI and AI for Networking

From Wisconsin to Atlanta: Microsoft connects datacenters to build its first AI superfactory Supercomputer networking to accelerate large scale AI training (MRC)