늘어만 가는 AI 워크로드! 무시무시한 전력 요구를 어떻게 수용할 것인가?
- Chang Sun Park
- 2월 21일
- 4분 분량
AI가 기업의 디지털 전환의 완성이라고 생각하는 이들이 많습니다. 그러다 보니 많은 조직의 IT 투자 우선순위 목록에 AI가 상단에 이름을 올리고 있습니다. 실제 프로젝트를 추진하는 팀은 AI 프로젝트가 늘어 나는 것이 큰 부담으로 다가옵니다.
데이터센터에 GPU 기반 서버와 각종 고성능 네트워크, 스토리지 장비로 AI 워크로드를 위한 인프라 구성을 위해 고려해야 할 것이 많기 때문입니다. 이 중 가장 큰 고민은 전력입니다. 최신 GPU를 장착한 시스템의 전력 소모량이 만만치 않습니다. AI 전용 칩의 소비 전력은 이미 500~700와트에서 1,000와트를 넘어설 것으로 전망됩니다. 상황이 이렇다 보니 전산실이나 데이터센터 환경에서 에너지 효율 극대화 방안을 찾기 쉽지 않습니다.
물론 차세대 AI/ML, LLM, HPC, 빅 데이터 분석 같은 고성능을 요구하는 워크로드를 효과적으로 지원하기 위해 높은 에너지 효율성과 확장성을 데이터센터 설계 단계부터 고려한 차세대 환경에서는 고민 거리가 아닙니다.
하지만 현재 데이터센터 환경에서는 큰 고민이 아닐 수 없습니다. 관련해 AI 인프라 전문 기업들은 나름의 최적화 방향을 제시하고 있습니다. 이번 포스팅에서는 대원씨티에스의 파트너인 KAYTUS가 제안하는 에너지를 절감할 수 있는 친환경 컴퓨팅 환경을 마련하기 위한 4가지 접근 방법을 살펴보겠습니다.
KAYTUS가 제안하는 “친환경 컴퓨팅” 4가지 접근 방식
KAYTUS는 데이터센터 전력 소비를 줄이고 이산화탄소(CO₂) 배출과 운영 비용을 모두 절감하기 위한 네 가지 핵심 개선 영역을 제시합니다. KAYTUS는 하드웨어 설계 단계부터 애플리케이션 최적화에 이르기까지 전체 과정을 유기적으로 고려해야 비로소 ‘그린 컴퓨팅’이 가능하다는 점을 강조합니다.

<1> 하드웨어 구성 요소 최적화
가장 기초이자 핵심적인 접근은 서버 하드웨어 자체의 물리적·구조적 개선입니다. 방열판(히트싱크)이나 팬, 공기 덕트 같은 부품을 어떻게 설계하고 배치하느냐에 따라 냉각 효율이 크게 좌우됩니다. 다음과 같은 물리적인 하드웨어 수준의 최적화를 통해 서버 한 대 한 대의 발열과 전력 사용량을 낮출 수 있으며, 방열이 제대로 되면 전반적인 데이터센터 냉각 비용도 줄일 수 있습니다.
공기 흐름 및 방열판 최적화: 전면과 후면 흡기 구조를 재설계하고, 내부 난류를 줄이기 위해 벌집형(허니컴) 도파관을 도입하면 공기의 흐름이 훨씬 원활해집니다. 이렇게 하면 열 교환 효율이 최대 30% 이상 올라가고, 팬과 냉각 시스템에 필요한 전력도 절감됩니다.
팬 설계 및 진동 저감: KAYTUS가 시뮬레이션 실험을 통해 확인한 바에 따르면, 팬 블레이드의 간격이나 각도를 조금만 바꿔도 진동이 줄고 풍량이 늘어나며, 결과적으로 냉각 효율이 최대 15%가량 향상될 수 있습니다. 고성능 프로세서를 위한 특수 방열판을 적용할 경우, 전체 서버 시스템의 열 발산 효율이 24% 이상 좋아지고, 단일 노드 서버 전력 소비도 10% 줄어듭니다.
<2> 시스템 소프트웨어 제어
하드웨어의 물리적 개선만큼이나 중요한 것은 서버 내부의 소프트웨어와 펌웨어 설정입니다. KAYTUS는 지능형 팬 속도 제어, 디스크별 전원 관리, 전원 제한(Power Capping) 같은 기능을 통해 서버당 전력 소비를 15% 이상 줄일 수 있다고 설명합니다. 다음과 같이 소프트웨어적 접근을 하면 전력 사용량과 함께 발열량도 감소해 냉각 장비의 부담이 덜어집니다. 기존 서버 구조와 비교해 볼 때 테라바이트(TB)당 전력 사용량을 315%까지 줄이고, 데이터센터 공간을 40% 절약할 수 있다는 연구 결과도 있습니다.
지능형 팬 속도 제어와 실시간 모니터링: 분산된 센서로 서버 내부 온도를 즉시 측정하고, 필요한 범위 안에서 팬 속도를 동적으로 조절함으로써 냉각 효과와 전력 사용의 균형을 맞춥니다. 이렇게 하면 냉각 효율은 유지하면서도 불필요한 팬 회전으로 인한 전력 낭비를 줄일 수 있습니다.
디스크별 전원 관리: CPLD(Complex Programmable Logic Device)를 이용해, 사용 빈도가 낮은 하드디스크를 자동으로 끄거나 절전 모드로 전환할 수 있습니다. 이렇게 하면 약 70%의 전력을 절약할 수 있으며, 데이터센터의 전체 운영 비용도 크게 줄어듭니다.
<3> 시스템 레벨 설계
KAYTUS는 서버나 랙 단위를 넘어 데이터센터 수준에서 공기 냉각과 액체 냉각을 혼합하거나, 아예 전체를 액체 냉각으로 전환하는 방안을 제안합니다. 이는 PUE(Power Usage Effectiveness)를 1.2 미만으로 낮출 수 있는 매우 효과적인 방법입니다. 액체 냉각 서버 캐비닛에는 동적 환경 모니터링 장치와 노드 수준의 누수 감지 기술이 적용되어, 실시간 경보를 통해 안전 문제도 관리할 수 있습니다. 전통적인 공기 냉각에 비해 데이터센터 전력 사용량을 최대 40%까지 절감하고, 방열 효율을 50% 높일 수 있다는 점이 특징입니다.
콜드 플레이트 액체 냉각: 프로세서나 GPU, 메모리처럼 열이 집중적으로 발생하는 부품 위에 액체가 흐르는 냉각판(콜드 플레이트)을 부착해 열을 직접 빼앗는 구조입니다. 이렇게 하면 1,000와트 급 AI 칩도 안정적으로 식힐 수 있고, 랙 스케일로 100kW 이상의 열량을 처리하는 것이 가능합니다.
고온 냉각수 활용과 Free-Cooling: 최근에는 액체 냉각을 할 때 공기보다 훨씬 높은 온도(예: 45°C)에서도 냉각이 가능하도록 설계해, 외부 환경의 저온 공기를 별도로 얻지 않아도 냉각 효율을 높입니다. 이렇게 얻은 ‘온수’를 다른 용도로 활용할 수도 있어서, 에너지 재활용 측면에서도 이점이 큽니다.
<4> 애플리케이션 최적화
마지막으로 애플리케이션 설계와 워크로드 운영 방식을 최적화하면 전력 사용량을 크게 줄일 수 있습니다. 이는 하드웨어나 소프트웨어 레벨의 개선과 긴밀히 맞물려 더 적은 서버로 더 많은 연산을 실현할 수 있습니다. 다음과 같이 애플리케이션 단계에서 최적화를 진행하면 이미 갖추어진 하드웨어·시스템의 성능을 최대한 활용하기 때문에 추가 투자 없이도 전력 낭비 요소를 상당 부분 제거할 수 있습니다.
GPU/CPU 활용도 극대화: 서버 클러스터에서 워크로드를 지능적으로 스케줄링하고, GPU 자원을 풀링하거나 세밀하게 분할해 사용하는 방식을 도입하면 전체 활용률이 70% 이상 높아질 수 있습니다. 결과적으로 유휴 상태인 서버가 줄어들고, 필요한 물리적 장비 대수도 축소됩니다.
비동기 폴링(Asynchronous Polling): 간헐적으로만 데이터가 전송되는 구간에서 지속적으로 리소스를 사용할 필요가 없다면, 비동기 방식으로 필요한 순간에만 활성화해 통신 시간을 최소화합니다. 이를 통해 전체 전력 소모를 절감할 수 있습니다.
시급한 현안 과제
AGI(Artificial General Intelligence) 시대가 코앞으로 다가왔습니다. AI 기술의 빠른 발전과 수요 증가로 데이터센터는 이전 세대와는 비교할 수 없을 정도로 전력 소비가 증가할 것으로 예측됩니다. 동시에 세계 각국이 탄소 중립 목표를 세우고 엄격한 에너지 효율 기준을 도입함에 따라, 데이터센터 운영사들은 고성능과 저전력을 동시에 달성해야 하는 새로운 도전에 직면하게 되었습니다. 에너지 문제는 더 이상 미룰 과제가 아닙니다. 현재 환경과 차세대 환경 모두에 대한 전략적 접근이 필요합니다.
Comments