코스피 7,000 시대, 퀀트 팀의 진짜 적은 컴퓨팅이 아니라 데이터입니다!

Chang Sun Park
4일 전
4분 분량

2026년 5월 11일 코스피가 장중 7,800선을 넘어서며 한국 증시는 사실상 8,000선을 바라보는 국면에 들어섰습니다. 2025년 10월 4,000선을 처음 넘긴 지 일곱 달 만의 일이며, 거래대금도 사상 최대 수준에서 매주 갱신을 거듭하고 있습니다.

이런 호황세를 한국 증권사, 자산운용사, 헤지펀드의 IT 책임자라면 다른 관점에서 바라볼 것입니다. 단순히 지수 상승률이나 거래대금만 보지 않으며, 거래량 폭증, 대체 데이터 증가, 분석 수요 증가, 자율 에이전트 기반 리서치 환경 제공까지 고려해 퀀트 플랫폼을 어떻게 다시 설계할지 고민할 것입니다.

앞으로 퀀트 플랫폼은 단순한 분석 시스템을 넘어설 것입니다. AI 학습, AI 추론, 장문 추론, 자율 에이전트까지 함께 처리해야 합니다. 이번 포스팅에서는 Everpure 블로그에 올라온 Mike Russo의 글을 참조해, 앞서가는 퀀트 팀을 위한 차세대 데이터 전략의 방향을 살펴보겠습니다.

AI 시대까지 고려한 퀀트 플랫폼은 어떻게 다른가?

자산운용사와 증권사가 AI/ML 모델을 도입하는 것은 거스를 수 없는 흐름입니다. 문제는 AI/ML 모델의 데이터 사용 방식이 전통적인 퀀트 분석과 다르다는 점입니다. 전통적인 퀀트는 주로 정형 시계열 데이터를 읽고, 집계하고, 통계 모델에 투입합니다. 반면 AI 모델은 텍스트, 이미지, 로그, 시계열 윈도우, 임베딩 벡터를 대량으로 읽고 씁니다. 학습 단계에서는 대규모 데이터를 GPU에 지속적으로 공급해야 하고, 추론 단계에서는 KV 캐시(Key-Value Cache)와 벡터 인덱스를 낮은 지연 시간으로 조회해야 합니다.

바로 여기에 금융권 IT 팀이 흔히 마주하는 함정이 있습니다. AI를 위해 별도의 스토리지, 네트워크, 컴퓨팅 사일로를 새로 만드는 것입니다. 많은 조직이 기존 퀀트 클러스터는 그대로 두고 AI는 별도 GPU 팜에서 돌리자는 식으로 접근합니다. 이 방식은 처음에는 편해 보입니다. 하지만 장기적으로 보면 합리적이지 않습니다. 데이터 복제와 ETL이 반복될수록 IT 비용은 늘고, 정합성 관리와 규제 준수 부담은 더 커집니다.

이 문제를 근본적으로 해결하려면 컴퓨팅과 데이터를 독립적으로 확장할 수 있는 구조를 먼저 설계해야 합니다. 데이터 레이어는 하나의 마스터 복사본을 중심으로 구성하고, 분석, AI 학습, AI 추론 워크로드는 같은 데이터 레이어를 바라보게 합니다. 컴퓨팅 레이어는 워크로드 특성에 맞게 따로 확장하며, 분석용 CPU, 학습용 GPU, 추론용 LPU나 NPU를 각각 필요한 만큼 붙이는 방식입니다.

이 구조가 중요한 이유는 AI 활용이 리서치 자동화, 시그널 후보 생성, 백테스트 보조, 리스크 점검 등으로 빠르게 확장되고 있기 때문입니다. 그리고 모든 관심사의 중심에 등장한 것이 바로 자율 에이전트입니다.

자율 에이전트와 추론 시대의 데이터 인프라

2026년 5월 현재 글로벌 금융권에서 빠르게 중요성이 커지는 워크로드는 자율 에이전트입니다. 이는 데이터 인프라 측면에서는 큰 부담으로 다가옵니다. 일반적인 LLM 호출은 비교적 단순합니다. 프롬프트가 들어가고 응답이 한 번 나오는 구조입니다. 자율 에이전트는 다릅니다. 하나의 목표를 받으면 작업을 작은 단계로 나누고, 각 단계마다 추론을 거치며, 도구를 호출하고, 결과를 평가한 뒤 다음 단계를 결정합니다.

예를 들어 리서치 담당자가 자율 에이전트에 "최근 6개월 한국 반도체 섹터의 모멘텀 변화를 분석해줘. 외국인 매매 패턴과 공시 텍스트, 글로벌 동종 섹터 흐름을 결합해 새로운 시그널 후보 5개를 제안해줘."라고 요청했다고 가정해봅시다.

에이전트는 이 한 줄의 요청을 받아 가격 데이터 조회, 외국인 매매 데이터 조회, 공시 텍스트 임베딩 검색, 글로벌 동종 섹터 데이터 조회, 결합 가설 생성, 미니 백테스트, 결과 평가, 다음 단계 결정을 자체 수행합니다. 이 과정에서 데이터 레이어를 수십 번, 많게는 수백 번 반복 조회합니다. 이때 병목은 두 방향에서 발생합니다. 하나는 에이전트가 여러 데이터 소스를 반복 조회하면서 생기는 입출력 병목이고, 다른 하나는 긴 대화 속에서 이어지는 추론 과정에서 컨텍스트를 오래 유지하느라 생기는 메모리 병목입니다.

병목은 GPU가 아니라 메모리

자율 에이전트와 장문 추론 워크로드의 병목은 단순한 GPU 연산 성능만으로 설명하기 어렵습니다. 중요한 문제 중 하나가 바로 메모리 월(Memory Wall)입니다. 추론 모델은 컨텍스트를 길게 유지해야 하고, 이 컨텍스트는 KV 캐시 형태로GPU 메모리에 올라갑니다. GPU 메모리는 비싸고 한정적인 자원이며, 컨텍스트가 길어지면 KV 캐시가 GPU 메모리를 빠르게 차지해 더 큰 컨텍스트를 처리하기 어려워집니다. 에이전트가 다단계 추론을 반복할수록 이 한계는 더 분명해집니다.

Everpure는 이 문제에 대한 해법으로 KV 캐시를 GPU 메모리에서 고성능 스토리지로 오프로드하는 방식을 제시합니다. 2025년 NeurIPS에서 공개한 이 방식은 FlashBlade의 낮은 지연 시간을 활용해 표준 구현 대비 추론을 최대 20배 가속한 결과를 보였습니다. 메모리를 플래시로 스왑하는 이 접근은 과도한 GPU 인프라 증설 없이 거대 컨텍스트 윈도우를 운영할 수 있게 합니다.

여기서 중요한 점은 스토리지의 역할이 바뀐다는 것입니다. 스토리지는 더 이상 데이터를 보관하는 장치에 머물지 않으며, 장문 추론과 자율 에이전트 워크로드에서는 추론 파이프라인의 일부로 적극적으로 참여합니다.

스토리지가 추론에 참여

한 단계 더 나아간 개념이 바로 "스토리지가 추론에 참여"하는 것입니다. 이를 위한 기술 혁신이 컨텍스트 메모리 계층(Context Memory Tier)입니다. Everpure는 FlashBlade//EXA에 자율 에이전트와 장문 추론 워크로드를 위한 전용 고성능 컨텍스트 메모리 계층을 설계했으며, 이 구조에서는 스토리지의 역할이 단순한 저장소를 넘어섭니다. 모델이 장문 컨텍스트를 처리할 때 필요한 데이터를 낮은 지연 시간으로 공급하고, 반복 조회되는 컨텍스트를 효율적으로 관리하며, 추론 과정에서 발생하는 메모리 부담을 완화합니다.

자율 에이전트 시대 데이터 인프라의 네 가지 조건

자율 에이전트 도입을 검토 중이라면 데이터 레이어 설계 단계에서 다음 네 가지 조건을 함께 고려해야 합니다. 사후에 보완하면 비용과 복잡성이 크게 늘어날 것이기 때문입니다.

통합 데이터 레이어: 분석, 학습, 추론 워크로드가 하나의 마스터 복사본을 공유해야 합니다.
컴퓨팅과 데이터의 분리: CPU/GPU/NPU를 워크로드 특성에 따라 독립적으로 확장할 수 있어야 합니다.
KV 캐시 오프로드: GPU 메모리를 넘어 고성능 스토리지가 컨텍스트를 효과적으로 관리할 수 있어야 합니다.
자동화된 데이터 준비: AI/에이전트가 바로 활용할 수 있는 형태로 데이터를 자동으로 준비하는 파이프라인이 필요합니다.

위 네 가지 조건은 모두 한 가지를 전제합니다. 데이터가 미리 AI 친화적인 형태로 준비돼 있어야 한다는 점입니다.

데이터 준비, 자율 에이전트의 시작점

자율 에이전트가 다단계 추론을 수행하려면 각 단계에서 사용할 데이터가 미리 AI 친화적인 형태로 준비돼 있어야 합니다. PDF, 이미지, 표, 텍스트, 로그를 그대로 던진다고 에이전트가 알아서 처리하지 않으며, 데이터 준비(Data Readiness)가 별도의 단계로 필요합니다.

이 단계가 AI 도입의 가장 큰 걸림돌입니다. 데이터 과학자가 매번 직접 ETL을 짜는 방식에는 한계가 있으며, 새로운 대체 데이터가 들어올 때마다 파이프라인을 다시 만들면 속도가 나지 않습니다. 위성 이미지, 신용카드 거래 데이터, 모바일 활동 데이터, 공시 텍스트, 뉴스 데이터가 계속 늘어나는 환경에서는 더 그렇습니다. 필요한 것은 자동화된 데이터 준비 파이프라인입니다.

금융권에서 문제는 데이터가 없다는 것이 아닙니다. 데이터는 충분하며, 문제는 에이전트가 바로 읽고 추론에 활용할 수 있는 형태로 준비되어 있지 않은 것이 많다는 것입니다. Everpure의 Data Stream은 이 간극을 줄입니다. Data Stream은NFS, S3, SMB 다중 프로토콜을 지원하고, 수십억 개의 파일과 객체를 처리하며, 다양한 소스에서 데이터를 자동으로 수집하고 AI 워크로드에 맞는 형태로 변환합니다. 핵심은 이 과정이 GPU 가속 자동화로 이뤄진다는 점입니다. 데이터 수집에서 모델 배포까지의 경로가 통합 인프라 스택의 자동화된 기능이 되어, 새로운 데이터 소스가 들어와도 자율 에이전트가 사용할 수 있는 형태로 준비하는 시간을 크게 줄일 수 있습니다.

선택의 기로

코스피 7,000 시대의 한국 금융권은 갈림길에 서 있습니다. 한쪽은 거래량 폭증을 두려워하면서 더 많은 서버를 사들이는 길이고, 다른 한쪽은 AI 활용을 새로운 기회로 보고 데이터 레이어를 다시 설계하는 길입니다.

이제 필요한 것은 단순한 서버 증설이 아닙니다. 퀀트 분석, AI 학습, 장문 추론, 자율 에이전트 워크로드를 함께 고려한 데이터 플랫폼 전략이 필요합니다. 이러한 방향성 아래 서버와 GPU를 추가로 확장했을 때, 현재 데이터 인프라가 그 성능을 충분히 뒷받침할 수 있을까? 데이터 과학자가 데이터를 기다리지 않으며 더 빠르게 가설을 검증할 수 있을까? 같은 질문에 대한 답을 찾아야 할 때입니다.