AI 프로젝트의 성공 여부를 가르는 ‘데이터 준비’ 데이터 플랫폼부터 스토리지 서비스까지 Everpure(구 Pure Storage)가 제시하는 청사진
- Chang Sun Park
- 5일 전
- 3분 분량
AI를 주제로 하는 행사를 다니다 보면 올해 화두가 무엇인지 알 수 있습니다. 기업마다 기술마다 세부 내용은 다르지만 공통적으로 하는 말은 이제 AI 투자는 PoC(Proof of Concept)를 넘어 프로덕션을 향하고 있다는 것입니다. 요즘 모델과 AI 가속기와 메모리 분야의 발전 속도를 보면 이제 AI 투자가 실험 단계를 지나는 것은 당연해보입니다. 하지만 여전히 프로젝트 성공을 확답하기에는 부족함을 느끼는 곳이 적지 않습니다. 왜 그럴까요? 최신 아키텍처 GPU 기반 서버를 충분히 확보해도, 멀티 에이전트 운영을 위한 플랫폼을 잘 갖추어도, 데이터가 맥락 없이 여기저기 흩어져 있으면 AI 프로젝트는 PoC 단계를 넘어서기 어렵습니다.
PoC의 벽을 넘어서기 위한 전제 조건 ‘데이터 준비’
유명 시장 조사기관들은 그 결정적인 원인으로 'GPU'나 '모델 성능'이 아닌 '데이터'를 지목하고 있습니다.데이터 준비(Data Readiness)가 제대로 되어 있지 않은 환경에서 AI 프로젝트가 PoC에 머물게 된다는 것입니다. 그렇다면 데이터 준비를 어떻게 해야 할까요?
사실 AI 프로젝트에서 가장 큰 비용과 노력이 투입되는 지점은 바로 '데이터 준비' 단계입니다. 실제로 현장의 데이터 팀은 업무 시간의 대부분을 인공지능이 즉시 학습하고 활용할 수 있는 최적의 상태로 데이터를 가공하는 데 쏟아붓고 있습니다. 이처럼 손이 많이 가는 이유는 AI 모델이 요구하는 데이터는 로우 데이터(Raw Data)가 아니라 맥락을 포함한 정보(Information)이기 때문입니다. 이에 데이터 팀은 다음과 같이 여러 단계의 작업을 하느라 많은 시간을 보내고 있습니다.
익명화 및 민감 정보 제거: 개인정보, 기밀 데이터 필터링
인덱싱·벡터화: 시맨틱 검색과 RAG를 위한 구조화
청킹·임베딩: 모델 컨텍스트 윈도우에 맞는 분할과 수치 표현
맥락·계보 태깅: 데이터가 어디서 왔고, 무엇을 의미하는지 주석 추가
거버넌스 검토: 규제 준수 및 접근 정책 적용
대원씨티에스는 데이터 준비에 대한 시장의 고민을 오랜 기간 곁에서 보아 왔습니다. 그리고 이를 해결하기 위해 파트너십을 강화하고 있습니다. 그 중 하나가 Everpure(구 Pure Storage)입니다. Everpure의 최근 행보를 통해 데이터 준비 관련 장벽을 넘어 설 수 있는 방법을 살펴보겠습니다.
장벽 1: 데이터가 무엇인지 모른다!
AI 프로젝트를 시작하려면 조직에 어떤 데이터가 어디에 있고 그것이 어떤 의미인지를 알아야 합니다. 문제는 이를 파악하는 것이 쉽지 않다는 것입니다. Everpure는 이 문제를 해결하기 위해 1Touch.io를 인수하였습니다. 1Touch.io는 다양한 원천에 대한 가시성을 바탕으로 데이터를 자동으로 발견하고 분류하는 원천 기술을 보유한 기업입니다.
이 기업의 기술을 활용하면 흩어져 있는 수많은 데이터 속에서 보물을 찾듯 정보를 자동으로 발견하고 분류할 수 있습니다. 특히 데이터 간의 복잡한 관계와 숨은 의미를 '시맨틱 지식 그래프'로 정교하게 엮어내는 것이 강점입니다. 단순히 데이터가 어디에 있는지 보여주는 수준을 넘어 그 안에 담긴 깊은 맥락까지 스스로 파악합니다.
장벽 2: 데이터 플랫폼 배포와 운영의 복잡성
1Touch.io 인수는 현재 베타 단계인 Data Stream과 강력한 시너지 효과를 창출할 것으로 기대를모으고 있습니다. Data Stream은 자동화를 기반으로 데이터 파이프라인을 실행하는 AI 컴퓨트, 스토리지, 데이터 플랫폼이 사전 통합된 어플라이언스 솔루션입니다. 관련해 Everpure는 다양한 파트너와 협업을 추진 중이며 현재 발표된 협력 내용은 다음과 같습니다.
NVIDIA & Cisco: NVIDIA 레퍼런스 아키텍처를 기반으로 Data Stream, FlashBlade, RTX PRO 서버를 결합한 어플라이언스를 제공합니다.
Supermicro: 중소 규모 팀이나 부서를 위해 Everpure의 Data Streame을 적용하고 RTX PRO 서버 에디션 GPU를 탑재한 소형 어플라이언스를 제공합니다.
향후 Data Stream이 정식으로 출시가 되면 전문적인 AI 인프라와 데이터 플랫폼 설계 인력이 없는 조직도 AI 프로젝트를 신속하게 시작할 수 있게 될 전망입니다. 이것이 어떻게 가능할까요 ? 비결은 바로 자동화에 있습니다. Data Stream은 데이터 수집부터 정제, 변환, 벡터화, 인덱싱, 서빙에 이르는 복잡한 과정을 단일 플랫폼에서 처리합니다. 잘 준비된 데이터는 벡터 기반 탐색과 AI 추론은 물론 기업만의 도메인 특화 모델 최적화, AI 에이전트, RAG 데이터 준비 자동화 그리고 멀티 모달 AI를 위한 비정형 데이터 통합 처리까지 폭넓게 활용할 수 있습니다.
이와 같은 데이터 파이프라인 자동화는 데이터가 정확히 어디에 있고 그 데이터가 무엇을 의미하는지 명확히 파악될 때 비로소 강력한 시너지르 발휘합니다. 앞서 Data Stream과 1Touch.io의 기술이 시너지를 일으킬 것이라 설명한 이유입니다. 관련해 최신 업데이트 내용을 앞으로 지속해서 공유하겠습니다.

장벽 3: AI 스토리지 용량 산정의 어려움
AI 스토리지 용량 산정은 쉽지 않습니다. AI 워크로드는 우리가 흔히 접해온 일반적인 엔터프라이즈 워크로드와 특성이 다릅니다. AI 훈련, 미세조정(Fine-Tuning), 추론에 이르기까지 단계마다 요구되는 성능과 용량 기준이 다릅니다. 이 모든 가능성을 사전에 고려해 AI 인프라를 설계하는 것은 결코 쉬운 일이 아닙니다.
이런 현장의 고민을 꿰뚫어 본 Everpure는 AI 스토리지 예측의 어려움을 해소하기 위해 Evergreen//One for AI라는 구독형 스토리지 서비스를 제공합니다. 이 서비스를 활용하면 물리적인 장비 구입 대신에 성능 기반 SLA를 통해 필요한 AI 워크로드를 위한 스토리지 대역폭과 용량을 상황에 맞게 유연하게 조절할 수 있습니다. Everpure는 이 서비스를 FlashBlade//EXA 포트폴리오까지 확장해 선택지를 넓혔습니다.
지속 가능성이 중요
살펴본 바와 같이 Everpure의 제안은 데이터 준비를 일회성 프로젝트가 아니라 지속적인 최적화 과정으로 바라봅니다. 1touch.io의 기술과 Data Stream으로 데이터 파이프라인을 지능화·자동화하고, 온프레미스 배포 시 사전 검증된 AI 데이터 플랫폼을 탑재한 어플라이언스로 복잡성을 줄이고, 구독형 서비스로 성능 걱정 없이 수요에 맞게 스토리지를 유연하고 경제적으로 공급할 수 있을 때 PoC가 프로덕션까지 살아남을 가능성이 높아집니다. 더 자세한 정보가 필요하시다면 대원씨티에스로 문의바랍니다.
.png)



댓글