AI 데이터센터 운영에서 가시성을 확보해야 하는 이유 & 방법

Chang Sun Park
4월 8일
3분 분량

AI 데이터센터의 특징을 가장 잘 보여주는 개념으로 AI Factory를 꼽습니다. 이 개념에 담긴 뜻을 들여다보면 확실히 우리에게 익숙한 데이터센터와 다른 점이 많다는 것을 알 수 있습니다. 이를 간단히 비교하면 다음과 같습니다. 기존 환경의 경우 개별 구성 요소로 구성합니다. 운영과 관제는 이 방향에 맞추어 이루어집니다. 반면에 AI Factory는 여러 인프라 요소가 하나의 거대한 유기체처럼 연결되어 있습니다. 이런 구조적 특징으로 관리 방식도 이전과 확실히 다르게 접근해야 합니다. 관련해 이번 포스팅에서는 AI 데이터센터 관제의 전제 조건인 가시성 확보 방안을 KAYTUS의 KSManage를 기준으로 살펴보겠습니다.

AI 데이터센터의 관제는 깊이가 다르다?

데이터센터 관제하면 무엇이 떠오르나요? 아마 대시보드를 통해 각종 지표를 모니터링하면서 이상이나 장애 관련 알람이 뜨면 엔지니어가 개입해 조치를 취하는 장면이 펼쳐질 것입니다. 관제 요원과 엔지니어의 대응은 기존 환경이나 AI 데이터센터나 다를 것이 없습니다. 하지만 무엇을 어느 수준까지 깊이 있게 바라봐야 할 지에 대한 기준은 다릅니다.

일반적인 데이터센터 환경은 SNMP, syslog, IPMI 같은 도구로 관제에 필요한 것들을 충분히 볼 수 있습니다. AI 데이터센터는 앞서 언급한 바와 같이 다양한 하드웨어 요소가 유기적으로 연결된 거대한 시스템을 지향하다 보니 관제 대상의 범위와 깊이가 다릅니다. 기존 도구와 방식으로는 보이지 않는 사각지대가 너무 많다고 할 수 있는데요.

예를 들어 볼까요. GPU가 유휴 상태인 것은 알겠는데 그 이유는 무엇일까요? 훈련 잡(Tanning Job)이 멈춘 것은 알겠는데 어느 계층에서 병목이 발생했는지는 확인하기 어렵습니다. 기존 관제 도구와 방식으로는 답을 할 수 없는 상황이 많습니다. 이런 이유로 최근 AI 데이터센터 관제를 이야기할 때 가시성이 빠지지 않습니다. AI 데이터센터에서는 전력, AI 가속기, 포트, 잡, 모델 등으로 관제 범위를 확대해야 합니다.

AI 데이터센터 가시성 확보를 위한 지름길 KSManage

AI 데이터센터를 위한 가시성 확보를 위한 도구의 진화도 빠르게 이루어지고 있습니다. 이번 포스팅에서는 대원씨티에스의 파트너인 KAYTUS의 KSManage를 기준으로 도구의 진화 방향을 알아보겠습니다.

KSManage는 부품, 서버 및 캐비닛, 클러스터, 그리고 AI 작업(Job)까지 이어지는 '4단계 통합 가시성'을 제공합니다. 이는 단순히 모니터링 항목을 늘리는 수준을 넘어 어느 부품의 상태 변화가 어떤 노드의 성능 저하를 일으켰으며 그것이 실제 AI 작업에 어떤 영향을 미쳤는지를 하나의 흐름으로 추적할 수 있도록 설계된 KAYTUS의 방법론이 반영된 것이라 이해할 수 있습니다. 각 단계가 어떻게 AI 데이터센터 관제를 위한 가시성을 제공하는지 살펴보겠습니다.

첫 번째 단계인 부품 단위 가시성에서는 GPU 메모리 상태, 온도, 전력 소비량 등 미시적인 지표를 실시간으로 수집합니다. 예를 들어 NVIDIA B200 시스템에서 연산 오류가 발생하면 오류 로그를 분석하여 하드웨어 결함인지 소프트웨어 충돌인지를 정밀하게 구분해냅니다.
두 번째 단계에서는 이러한 데이터를 서버와 캐비닛 단위로 통합하여 3D 시각화 정보를 제공합니다. 운영자는 실시간 3D 모델링을 통해 고밀도 캐비닛 내부의 열 분포와 전력 사용 효율을 직관적으로 파악하며 핫스팟 발생을 사전에 차단합니다. 또한, 수천 대의 장비에 대한 펌웨어 업데이트를 일괄 처리하여 관리 효율을 극대화합니다.
세 번째 단계는 클러스터 수준의 자동 토폴로지 분석입니다. KSManage는 노드 간의 물리적, 논리적 연결을 스스로 발견하여 시각화합니다. 특히 인피니밴드 네트워크의 상태를 정밀하게 감시하여 병목 현상을 찾아내고 경로를 최적화합니다.
마지막 네 번째 단계는 가장 고도화된 기능인 AI 작업 기반의 상관 분석입니다. 하드웨어의 이상 징후를 실제 진행 중인 학습 작업과 연계하여 네트워크의 미세한 결함이 학습 중단을 일으키는 인과 관계를 추적합니다. 이를 통해 불필요한 작업 재시작을 방지하고 최적의 지점에서 작업을 재개하도록 지원하여 컴퓨팅 자원의 낭비를 원천적으로 차단합니다.

한편, KSManage는 단순히 가시성만 제공하는 도구가 아닙니다. 예지 기반 유지보수와 운영 자동화까지 가시성의 활용 범위를 넓힙니다. KSManage는 지능형 분석 알고리즘을 통해 GPU와 같은 핵심 부품의 이상 마모 징후를 포착하고 하드웨어 장애 위험을 최대7일 전에 예측합니다. 스토리지 용량 부족 위험 또한 3일 전에 미리 경고하여 데이터 유실이나 작업 실패를 미연에 방지합니다.

또한, 지식 그래프와 시계열 이상 탐지 알고리즘을 결합하여 운영 자동화 수준을 끌어올려 평균 복구 시간(MTTR)도 낮춥니다. KAYTUS에 따르면 장애가 발생하면 근본 원인의 90%를 5분 이내에 자동으로 식별하여 대응 속도를 획기적으로 높일 수 있다고 합니다.

가시성 확보를 서둘어야 하는 이유

AI 데이터센터가 아니더라도 기존 환경에 GPU 클러스터 규모를 늘려 가다 보면 기존 관제 방식의 한계가 곧 드러날 것입니다. 이를 해결하기 위한 솔루션을 찾고 있다면? AI 데이터센터가 요구하는 가시성과 이를 토대로 한 예지 기반 유지보수와 운영 자동화를 지원하는 도구인 KSManage가 좋은 선택이 될 것입니다. 더 자세한 내용이 궁금하시면 언제든 대원씨티에스로 문의해주시기 바랍니다.

AI 데이터센터 운영에서 가시성을 확보해야 하는 이유 & 방법

AI 데이터센터의 관제는 깊이가 다르다?

AI 데이터센터 가시성 확보를 위한 지름길 KSManage

가시성 확보를 서둘어야 하는 이유

최근 게시물

댓글 1개