top of page

더 깊게 생각하는 AI, 폭증하는 비용, Agentic AI 시대의 성공적인 AI 인프라 전략

  • 작성자 사진: 태현 박
    태현 박
  • 1월 14일
  • 3분 분량

파운데이션 모델 기반 생성형 AI가 대중의 관심을 끌기 시작하던 2022년 말만 해도 AI 업계와 기술 커뮤니티의 화두는 GPU와 훈련이었습니다. 하지만 2025년 현재는 민간, 공공 영역에서 AI 서비스가 프로덕션 환경에 배포되면서 관심사는 추론과 NPU 같은 전용 가속기로 옮겨갔습니다. 그리고 자연스럽게 어떻게 하면 추론 성능을 최적화하고 TCO를 낮출 것인지에 대한 이야기가 오가고 있습니다.


그렇다면 모델은? 대규모로 GPU를 확보해 운영할 수 있는 예산과 인력이 있는 대기업이나 빅테크가 아닌 이상 파운데이션 모델을 직접 훈련하지 않습니다. 일반 기업이나 테크 기업 그리고 공공 기관의 경우 허깅페이스 같은 모델 리포지토리에서 필요한 파운데이션 모델이나 도메인 특화 모델을 가져와 미세 조정해 씁니다. 더불어 사내 보유 데이터와 도메인 지식을 RAG로 보완하는 것이 표준처럼 자리를 잡았습니다.


달라진 인프라 요구 사항


AI가 프로덕션 환경에 본격적으로 진출하고 있다는 것을 상징하는 키워드가 Agentic AI입니다. 2025년 한국 시장에서 SI, MSP 등을 중심으로 멀티 AI 에이전트 운영 플랫폼 출시가 줄을 이었습니다. 이는 2026년부터 민간, 공공 부문에서 Agentic AI 관련 프로젝트 진행에 대한 시장의 기대가 반영된 현상이라 볼 수 있습니다.


전사 규모의 사내 서비스나 고객을 위한 대외 서비스 환경에 AI 에이전트와 AI 서비스 배포를 준비하는 곳에서는 추론에 최적화된 인프라 구축에 높은 관심을 보이고 있습니다. 그 이유는 추론은 우리가 생각하는 것 이상의 자원을 요구하기 때문입니다.


우리가 일상적으로 사용하는 ChatGPT, Gemini, Claude 같은 상용 서비스는 고차원적인 추론을 바탕으로 답을 합니다. 사용자의 눈 높이를 사내 서비스나 대외 서비스에서도 맞추려면? CoT(Chain-of-Thought) 기법을 적용하거나 긴 추론 체인을 생성하도록 훈련한 모델(Reasoning Model)을 사용해야 합니다. 이런 식으로 오래 고민해 더 나은 답을 하는 것처럼 모델에게 충분히 생각할 시간을 주려면 더 많은 자원을 투입해야 합니다.

 

추론 단계에서 급증하는 자원 요구량


그렇다면 어떤 기준으로 자원 투입, 다른 말로 인프라 확장 전략을 세워야 할까요? 모델 훈련과 추론 단계에 따라 다른 전략이 필요합니다. 슈퍼마이크로의 자료에 따르면 AI 확장은 훈련 기간보다 추론 과정에서 큰 폭으로 이루어집니다. 이를 세분화하면 다음과 같습니다.


  • 사전 훈련 스케일링(Pre-training scaling): 훈련 데이터셋의 크기, 모델을 구성하는 매개변수의 수 그리고 훈련에 투입되는 컴퓨팅 리소스를 함께 늘리면 모델의 지능과 정확성이 예측 가능한 방식으로 높일 수 있습니다.

  • 사후 훈련 스케일링(Post-training scaling): 미세 조정(fine-tuning), 증류(distillation), 가지치기(pruning), 양자화(quantization), 강화 학습(reinforcement learning) 그리고 합성 데이터 증강(synthetic data augmentation) 등 다양한 기술이 활용됩니다.

  • 테스트 시간 스케일링(Test-time scaling): 모델은 여러 가능한 응답 경로를 탐색하고 추론 과정을 거쳐 최적화된 최종 답변에 도달합니다.

 

이 중 Agentic AI 관련해 주목해야 하는 것은 테스트 시간 스케일링입니다. 여러 AI 에이전트가 여러 단계에 걸쳐 협업을 하며 작업을 수행하는 Agentic AI  환경은 컴퓨팅 리소스 수요 증가 곡선의 기울기가 다릅니다. 이는 모델이 답변을 생성하는 추론 단계에서 더 많은 연산을 수행하기 때문입니다.


출처: Powering AI Factories: Scaling GenAI with Direct-to-Chip Liquid-Cooling(IDC InfoBites, Sponsored by Supermicro and NVIDIA)


Agentic AI 시대에 맞는 용량 계획과 성능 최적화 전략


Agentic AI 환경처럼 모델이 지능적으로 더 많이 생각하는 시간을 갖게 되면 지연 시간 증가, 연산 자원 폭증 같은 인프라 관련 이슈가 생길 수 있습니다. 이런 이유로 추론 인프라 용량 산정과 성능 최적화를 다른 관점에서 바라봐야 한다고 말하는 것입니다. 이에 대해 좀 더 이해하기 쉽게 알아보겠습니다.


단순한 AI 챗봇처럼 단발성으로 질의 응답을 하는 경우 GPU나 NPU는 잠깐 일을 합니다. 단순한 작업 흐름이다 보니 리소스 사용 시간이 짧고 어느 정도 리소스를 쓸 지 예측이 가능합니다. 반면에 한 번의 요청을 여러 단계에 걸쳐 추론을 하는 Agentic AI 환경은 리소스 사용 시간이 길고 사용량 예측도 어렵습니다.

비유하자면 기존에는 직원 한 명이 질문을 받고 대답하는 구조였다면 이제는 질문 하나를 처리하기 위해 여러 부서가 회의하고 문서를 주고받으면서 최종 결과물을 만드는 구조입니다. 당연히 총 업무 시간과 투입 인력이 늘어날 수밖에 없죠.


여기서 우리는 AI 인프라 용량 산정과 성능 최적화 방식이 달라져야 할 때가 되었다는 인사이트를 얻을 수 있습니다. 사용자 수와 TPS(Tokens per Second), TTFT(Time to First Token), ITL(Inter-Token Latency) 같은 지표를 기준으로 용량 계획과 성능 최적화 전략을 수립하던 방식만으로는 충분하지 않습니다. 사용자 요청이 내부적으로 몇 단계의 AI 에이전트 호출을 발생시키는 지, 각 단계가 병렬화 가능한지, 중간 상태를 어디에 저장할 지 등 Agentic AI의 특성을 고려한 새로운 용량 계획과 성능 최적화 전략이 필요합니다.


사실 Agentic AI는 대부분 가보지 않은 길입니다. 따라서 우리 조직에 맞는 인프라 전략을 세우기까지 어느 정도 시행착오가 필요할 것입니다. 이 과정을 단축하고 싶다면? 대원씨티에스가 도움을 드리겠습니다.

댓글

별점 5점 중 0점을 주었습니다.
등록된 평점 없음

평점 추가
bottom of page