오픈 테이블 포맷의 부족함을 채워주는 VAST DataBase의 존재감!

jiyoung kim
2024년 8월 8일
4분 분량

디지털 전환(DX)와 AI 전환(AX) 시대를 맞아 기업이 보유한 핵심 자산으로 데이터의 가치가 급등하고 있습니다. 실제로 LLM 기반 생성형 AI, 전통적인 AI/ML 워크로드 그리고 분석 작업은 데이터라는 연료 없이 제대로 실행되지 않습니다. 이처럼 데이터의 활용 가치가 높음에도 많은 조직이 기존 데이터 플랫폼 환경이 갖는 기술적 제약으로 ‘복잡성의 늪’에 빠져 있습니다.

실제로 데이터베이스, 데이터웨어하우스, 빅데이터 플랫폼, 데이터 레이크 등 여러 계층을 활용하여 실시간 기반의 생성형 AI나 분석을 위한 데이터 파이프라인을 구축하고 운영하는 것은 점점 더 복잡해지고 있습니다. 데이터 파이프라인을 단순화하려는 시도로 Apache Iceberg와 같은 개방형 테이블 포맷이 주목받고 있지만 여전히 한계가 존재합니다.

이번 포스팅에서는 데이터 플랫폼 환경이 복잡해지는 원인과 Apache Iceberg 같은 개방형 포맷이 등장한 배경과 제약 사항, 그리고 VAST DataBase가 이 문제를 어떻게 해결할 수 있는지 살펴보겠습니다.

데이터 플랫폼이 복잡하면 어떤 문제가 생길까?

기업의 데이터 플랫폼 환경은 여러 세대 기술이 존재합니다. 전통적인 데이터베이스와 데이터웨어하우스부터 빅 데이터 플랫폼과 데이터 레이크 그리고 최근에는 벡터 데이터베이스 등 여러 세대의 솔루션이 각자의 역할에 맞게 처리합니다. 이와 같은 다중 계층 아키텍처는 최근 DX, AX 관련 프로젝트가 늘면서 문제를 드러내고 있습니다. 이를 간단히 알아보겠습니다.

데이터가 여러 시스템에 분산되면서 동일한 데이터를 중복 저장하거나 서로 다른 형식으로 관리하게 되어 데이터 정확성과 일관성을 유지하기 어려워지고 중복 데이터 관리 비용도 증가하고 있습니다. 또한, 각 계층은 별도의 스토리지 포맷, 메타데이터 카탈로그, ETL/ELT 파이프라인을 요구하고, 서로 다른 처리 엔진을 조합하여 실시간 워크로드를 처리하기 위해서는 엔진 간 데이터 이동 및 변환이 빈번하게 일어나 운영 복잡도가 높아지고 있습니다.

LLM 기반 생성형 AI나 AI/ML모델을 대규모로 학습하려면 방대한 데이터 세트에 대한 빠른 입출력(I/O)과 실시간 처리가 필수적이지만, 복잡한 계층형 아키텍처는 대규모 동시 워크로드를 처리하는 과정에서 지연 현상이 발생해 실시간 분석에 적합한 수준의 성능을 보장하기 어렵습니다. 게다가 여러 계층을 함께 사용하려면 끊임없는 튜닝, 모니터링, 문제 해결이 필요하므로 데이터 과학자나 엔지니어는 데이터 가공보다 인프라 운영에 많은 시간을 투입하게 됩니다.

개방형 테이블 포맷의 등장

엔터프라이즈 컴퓨팅 환경은 하나의 완성된 구조가 아닙니다. 지속해서 문제를 해결하며 진화를 합니다. 복잡한 데이터 플랫폼 환경 문제 역시 해결을 위한 시도가 이어지고 있습니다. 대표적인 것이 여러 계층과 포맷에서 발생하는 운영 복잡도를 줄이기 위해 Apache Iceberg와 같은 개방형 테이블 포맷이 등장한 것입니다.

Apache Iceberg가 탄생한 이유는 기존 Hadoop 생태계의 메타데이터 관리 한계를 극복하여 대규모 데이터 레이크에도 트랜잭션 일관성, 스키마 진화 등을 쉽게 적용하기 위함 입니다. 데이터 레이크에서 테이블 단위를 버전 관리하고, 스키마 변경이나 스냅샷, 트랜잭션 처리를 보다 유연하게 지원하기 위한 방안으로 찾은 것이 Apache Iceberg라 이해하면 됩니다.

Apache Iceberg의 지향점은 객체 스토리지 기반에서 테이블 단위의 관리를 단순화하여 다양한 엔진에서 동일한 포맷을 사용할 수 있도록 하는 개방 표준을 제안하는 것입니다. 분명한 것은 Apache Iceberg는 복잡성의 문제를 해결할 수 있다는 것입니다. 하지만 세상에 만능 솔루션은 없습니다.

Apache Iceberg는 테이블 메타데이터 포맷에 대한 해법입니다. 실제 데이터가 저장되는 객체 스토리지나 별도의 카탈로그 등 다양한 레이어를 제거하지는 못하므로 실시간성, 초고속 성능을 보장하기 위해서는 여전히 기존 스토리지 및 오케스트레이션 복잡성을 낮추어야 하는 숙제가 남습니다. 또한, 객체 스토리지 특성상 무작위 입출력 성능이 낮거나 테이블 관리 과정에서 파편화가 심해질 수 있어 단순 배치 분석 외에 실시간 스트리밍과 AI 파이프라인에는 부족함을 느낄 수 있습니다. 그러다 보니 Apache Iceberg를 도입해도 Spark, Trino 등 다양한 엔진과 연동, 버전 관리 등 운영 요소는 여전히 복잡합니다.

VAST DataBase가 제시한 새로운 해법

VAST Data는 DX, AX 관련 프로젝트의 요구 사항을 어떻게 유연하게 수용할 수 있는 현대적인 데이터 플랫폼을 구현할 수 있을까? 이 고민을 꽤 오래 해왔습니다. 그리고 이에 대한 답으로 VAST DataBase를 제시하고 있습니다.

VAST DataBase는 통합된 고성능 스토리지와 스키마 인식 데이터 관리를 결합하여 데이터 레이크 및 개방형 테이블 포맷 기반에서 발생하는 복잡성을 대폭 줄여주는 솔루션입니다. 어떻게 복잡성을 줄일까요? VAST의 DASE(Disaggregated Shared-Everything) 아키텍처는 NVMe 기반 올플래시 스토리지와 밀접하게 결합되어 최적화된 입출력 성능을 제공하며, 별도로 객체 스토리지나 Hadoop 파일 시스템, 메타스토어 등을 조합할 필요 없이 VAST DataBase 단일 계층에서 구조화/반구조화 데이터를 빠르게 처리하고 분석할 수 있습니다.

또한, 개방형 테이블 포맷이 지향하는 '데이터 자유'와 '트랜잭션 일관성'을 단일 플랫폼에서 실현하며, 테이블 형식, 카탈로그, 메타데이터 관리를 하나로 통합하여 Apache Iceberg가 제공하는 장점을 유지하면서도 별도의 계층 조합 없이 간소하게 운영할 수 있습니다.

VAST DataBase는 Trino, Spark, Dremio, Kafka 등 다양한 생태계를 지원하므로 기존에 익숙한 도구와 연동하면서도 스토리지/메타데이터 계층을 단순화할 수 있으며, 배치부터 스트리밍, LLM 및 AI/ML모델 학습까지 하나의 플랫폼에서 처리해 데이터 파이프라인 전 구간에서 확장성과 일관된 성능을 확보합니다. 이런 특징으로 다중 계층 아키텍처 구성, 튜닝, 모니터링, 중복 저장 등의 부담을 낮춰 스토리지 인프라와 데이터 플랫폼 관리보다 AI 모델 개발과 비즈니스 가치 창출에 리소스를 집중할 수 있도록 도와줍니다.

VAST DataBase 활용 시나리오

가상의 시나리오를 통해 앞서 소개한 VAST DataBase가 실제로 어떤 변화를 가져올 수 있을 지 알아보겠습니다. 실시간 위험 분석 및 의사결정을 위해 방대한 양의 거래 로그, 고객 데이터, 시장 지표 등을 동시에 처리해야 하는 가상의 A은행의 사례를 예로 들어보겠습니다. A은행은 원시 로그를 객체 스토리지에 저장하고, 별도의 테이블 포맷으로 카탈로그를 관리하며 Spark, Kafka, Trino 등 다양한 엔진을 조합해 스트리밍 및 배치 처리를 수행해왔습니다. 이로 인해 시스템이 분산되고 데이터 사본이 중복되어 데이터 동기화 및 정확성에 대한 신뢰도가 낮아지며, 쿼리 지연 증가로 인해 위험 분석, 고객 세분화, 규정 준수 점검이 제때 이루어지지 않고, IT 팀이 운영 복잡성에 직면하게 됩니다.

A은행은 문제 해결을 위해 VAST Data 플랫폼을 도입해 VAST DataBase를 적용하였습니다. VAST DataBase는 적용 후 바로 효과를 보였습니다. A은행은 VAST DataBase로 단일화된 스토리지와 스키마 인식 테이블 관리를 구축하여 거래 로그 및 고객 데이터를 하나의 플랫폼에서 바로 분석할 수 있게 되었습니다. NVMe 기반 고성능 스토리지 덕분에 분석 엔진을 통해 빠른 질의 응답이 가능해져 위험 분석가들은 실시간에 가까운 의사결정을 지원받고, AI 모델 훈련 시에도 대규모 데이터를 자주 재연결하거나 중복으로 복제하지 않아도 되어 입출력 병목 현상을 크게 줄일 수 있었습니다.

통합된 미래를 향하여

정리하자면 데이터 환경이 급속도로 진화함에 따라 기존의 다단계 레이어를 이어 붙이는 방식만으로는 실시간으로 운영해야 하는 LLM 기반 생성형 AI 서비스나 분석 워크로드를 원활하게 지원하기가 어려워지고 있습니다. Apache Iceberg와 같은 개방형 테이블 포맷은 이를 단순화하기 위한 한 단계 진보이지만, 별도의 객체 스토리지, 카탈로그 및 여러 처리 엔진을 통합·운영해야 하는 복잡성 자체를 제거하지는 못합니다. VAST Data는 DASE 아키텍처와 VAST DataBase를 통해 단순성, 성능, 유연성을 모두 달성할 수 있는 대안을 제시합니다. 데이터 사일로, 중복 스토리지, 까다로운 성능 튜닝 등이 고민이라면? 이제는 통합 플랫폼으로의 전환을 검토해 볼 시점입니다. 더 자세한 내용이 궁금하시면 대원씨티에스가 도움을 드리겠습니다.

오픈 테이블 포맷의 부족함을 채워주는 VAST DataBase의 존재감!

최근 게시물

댓글