클라우드를 통해 MML, LLM을 활용할 때 미세 조정과 RAG 시스템을 위한 ‘데이터 관리’를 어떻게 할 것인가?
- Chang Sun Park
- 2024년 12월 11일
- 3분 분량
2025년 IT 투자 계획에서 AI의 비중은 어느 정도일까요? 아마 상당수 조직이 MML(Multi Modal Language), LLM(Large Language Model), SLM(Small Language Model) 관련 프로젝트를 계획하고 있을 것입니다. 이들 계획은 비즈니스 목표는 각각 다를 것입니다. 그러나 기술 측면에서 추구하는 방향은 크게 다르지 않습니다. 원하는 모델을 선택해 조직이 보유한 데이터로 미세 조정을 하고 RAG(Retrieval-Augmented Generation) 기술을 적용해 생성형 AI 기반 챗봇이나 AI 에이전트를 구현하는 것입니다.
데이터, 데이터, 데이터….
AI 프로젝트가 성공하려면? 데이터를 잘 준비해야 합니다. 데이터는 모델 훈련, 미세 조정에만 쓰이는 것이 아닙니다. 요즘 모두의 관심사가 된 RAG 시스템도 결국 데이터가 핵심입니다. 그러다 보니 요즘 엔터프라이즈 AI 인프라에서 데이터 플랫폼의 중요성이 부각되는 분위기입니다. 그렇다면 어떤 데이터 플랫폼이 필요할까요? 관련해 VAST Data 블로그에 올라온 컬럼의 주요 내용을 전달해 보려 합니다. 이 컬럼은 피사대학교의 교수이자 최고정보책임자(CIO)인 안토니오 시스테르니노가 작성한 것인데 AI 시대의 데이터 관리를 어떤 측면에서 바라봐야 할 지에 대한 그의 생각을 잘 담고 있습니다.
다양한 유형의 데이터 수요 증가
안토니오 시스테르니노 교수는 AI 시대 조직이 주목해야 할 것으로 새로운 데이터 유형과 온프레미스와 클라우드를 포괄할 수 있는 하이브리드 방식의 모델 활용과 데이터 관리 방안을 꼽습니다.
먼저 새로운 데이터 유형에 대해 알아보겠습니다. 그가 말하는 새로운 데이터 유형은 사실 모두가 잘 알고 있는 부분입니다. 흔히 데이터의 유형을 물으면 ‘정형’, ‘비정형’을 떠올릴 것입니다. 두 유형의 차이는 명확합니다. 정형 데이터는 데이터베이스에 저장되는 정보를 떠올리면 됩니다. 비정형 데이터는 특정 구조 아래 정리할 수 없는 데이터로, 텍스트 문서, 이미지, 동영상 등을 예로 들 수 있습니다.
정형, 비정형 데이터는 AI 모델 훈련이나 미세 조정을 효율적으로 하는 데 한계가 있습니다. 예를 들어 정형 데이터는 지나치게 구조화되어 유연성이 떨어지고, 비정형 데이터는 방대하여 필요한 정보를 추출하기 어렵습니다. 이를 해결하기 위해 반정형 데이터 형식이 주목받고 있습니다. 반정형 데이터는 일정한 구조를 가지면서도 유연성을 제공하는 형식으로, XML, JSON, Markdown 등이 이에 속합니다.
이러한 반정형 데이터 형식은 AI 모델, 특히 LLM, SLM이 데이터를 이해하고 처리하는 데 용이합니다. LLM은 텍스트 기반의 데이터를 처리하는 데 특화되어 있어, XML이나 JSON과 같은 형식을 쉽게 해석하고 활용할 수 있습니다. 이런 유형이 안토니오 시스테르니노 교수가 말하는 AI 시대가 요구하는 새로운 데이터 유형입니다. 물론 정형, 비정형 데이터가 필요 없다는 것은 아닙니다. 기존 형식과 새로운 형식 모두가 필요한 시대라고 이해하면 됩니다.
AI 시대에 맞는 데이터 관리가 필요
다음으로 하이브리드 방식의 모델 활용과 데이터 관리 방안에 대해 알아보겠습니다. 이에 대한 안토니오 시스테르니노 교수의 관심이 상당합니다. 그는 Oraculum이라는 오픈 소스 프로젝트를 추진하고 있는데, 이 프로젝트만 봐도 관심이 어느 정도인지 잘 알 수 있습니다. Oraculum은 피사대학교에서 개발한 오픈 소스 AI 프레임워크로, 지식 기반을 활용하여 질문에 답변하는 경량의 AI 어시스턴트를 구축하는 것을 목표로 합니다. 이 시스템은 벡터 데이터베이스인 Weaviate를 사용하여 지식을 신경망 임베딩을 통해 시만틱(Semantic)하게 인덱싱하며, 이를 통해 다양한 언어로 표현된 정보를 검색하고 활용할 수 있습니다. 더 자세한 내용은 깃허브 페이지를 참조 바랍니다.

본론으로 돌아와 안토니오 시스테르니노 교수는 AI 시대에 맞는 모델 활용과 데이터 관리의 핵심으로 데이터 플랫폼의 역할을 강조합니다. 엔터프라이즈 컴퓨팅은 보안과 규제에 매우 민감합니다. 이는 AI 시대에도 마찬가지입니다. 보안과 규제를 강화하면서 AI 이니셔티브를 가속하기 위해 AI 모델은 로컬이나 클라우드 환경에서 유연하게 활용하고, 미세 조정이나 RAG 적용을 위한 데이터는 안전하게 내부에서 관리해야 한다는 것이 안토니오 시스테르니노 교수가 말하는 ‘하이브리드’ 방식입니다.
이 방식을 좀 더 자세히 살펴보겠습니다. 클라우드 서비스 사업자나 모델 리포지토리 서비스 기업이 제공하는 AI 모델을 이용할 때 기업은 훈련, 미세 조정, RAG 시스템을 위한 데이터를 여러 원천에서 수집해 통합해야 합니다. 이렇게 준비한 데이터는 로컬에서 활용되는 것이 중요하다는 것이 안토니오 시스테르니노 교수의 시각입니다.
그는 데이터 보안을 유지하기 위해 임베딩 프로세스를 로컬에서 직접 관리해야 한다고 봅니다. 임베딩 프로세스를 로컬에서 처리한다는 것은 데이터를 외부로 전송하지 않고, 조직 내부에서 데이터의 의미를 수학적으로 표현하는 작업을 수행한다는 것을 의미합니다. 가령 텍스트나 이미지를 AI 모델이 이해할 수 있는 벡터로 변환하는 과정을 로컬 서버나 내부 하드웨어에서 처리하는 방식입니다. 이를 통해 민감한 데이터를 보호하면서도 AI 기술을 효과적으로 활용할 수 있습니다.
준비된 AI 데이터 플랫폼
이런 측면에서 볼 때 VAST Data는 안토니오 시스테르니노 교수가 말하는 하이브리드 접근을 위한 준비된 AI 데이터 플랫폼이라 할 수 있습니다. VAST Data의 플랫폼은 온프레미스와 클라우드, 엣지 등 여러 위치에 있는 데이터 통합을 수월하게 합니다. 더불어 다양한 유형의 데이터를 수집하고 통합하는 과정에서 파일시스템, 관계형 데이터베이스, NoSQL 등의 경계를 넘어설 수 있는 길을 제공합니다. 쉽게 말해 글로벌 네임스페이스를 토대로 여러 위치에 있는 정형, 비정형 데이터 소스를 하나의 장소에 저장 및 관리할 수 있어, AI의 증가하는 요구를 충족할 수 있었습니다. 또한, 곧 출시될 InsightEngine 기능은 RAG 파이프라인을 간소화하여 AI 배포를 더욱 빠르고 쉽게 만들어줄 것으로 기대됩니다.
안토니오 시스테르니노 교수의 컬럼에는 중요한 메시지가 담겨 있습니다. 이번 포스팅은 그의 컬럼에 담긴 행간의 의미를 짚어 본 것입니다. 전체 원문을 한번 읽어 보시는 것도 추천 드립니다. 만약 VAST Data로 데이터 플랫폼 환경을 AI 시대에 맞게 현대화하는 것에 관심이 있다면, 대원씨티에스가 도움을 드리겠습니다.
Comments