top of page
검색

<Case Study> VAST Data 플랫폼, NYU 연구자들에게 새로운 가능성을 열어주다!

  • Chang Sun Park
  • 2월 13일
  • 4분 분량

최종 수정일: 2월 14일

이번 포스팅에서는 단순히 HPC 스토리지를 교체하는 것을 넘어 연구 데이터 관리 방식을 근본적으로 혁신하는데 성공한 뉴욕대학교(NYU)의 VAST Data 플랫폼 도입 프로젝트를 알아보겠습니다.

 

뉴욕대학교(NYU)는 학문적 다양성과 연구 범위가 매우 넓은 교육 기관입니다. 이를 IT 부서의 눈으로 바라보면? 화학, 생물정보학, 정치학, 물리학, 수리학 등 다양한 분야의 연구자에게 고성능 컴퓨팅(HPC) 자원을 효율적으로 제공하는 것이 꽤 중요한 임무 중 하나라고 볼 수 있습니다. 이 임무는 언뜻 보면 어려울 것 없어 보이지만 사실 쉽지 않은 일입니다. 어느 조직이나 IT 자원은 남아도는 것이 아니라 늘 빠듯하기 때문입니다.


컴퓨팅 자원은 잡 스케줄러로 나름 자원 운영 효율을 높일 수 있습니다. 문제는 스토리지입니다. NYU 같이 다채로운 연구 활동을 지원해야 하는 경우 유연하고 안정적인 스토리지 인프라가 필수입니다. 그 이유는 무엇일까요? Lustre, GPFS 같은 전통적인 병렬 파일시스템을 운용해본 분이라면 업그레이드나 노드 장애가 발생할 때 관리와 운영 리스크가 상당하다는 점을 잘 알 것입니다.

 



 

병렬 파일시스템 운영의 한계


NYU는 기존 병렬 파일시스템으로 여러 해 동안 연구 활동을 지원해 왔습니다. 그러던 와중에 데이터가 방대해지고 워크로드가 복잡해지면서 “이 방식이 정말 최선인가요?”라는 의문을 갖게 되었다고 합니다. 병렬 파일시스템을 업그레이드할 때는 사용자들에게 미리 공지하고, 성능 저하나 다운타임을 피하기 위해 심야나 주말 시간을 활용해야 했습니다. 특정 사용자가 과도한 I/O를 발생시키면, 전체 성능에 악영향을 주는 일도 자주 생겼습니다.


문제가 생겼을 때 “어느 노드에서 누가 무엇을 하고 있는지”를 찾아내는 작업 역시 쉽지 않았습니다. 문제가 발생하면 연구자들은 “왜 이렇게 느리냐?”라는 볼멘 소리를 합니다. 하지만 바로 문제를 해결하는 것은 말처럼 쉽지 않습니다. 로그와 스크립트를 분석해 원인을 찾아 해결해야 하기 때문입니다. 이처럼 시간이 많이 걸릴 수 밖에 없는 작업을 문제가 생길 때마다 한다? 언젠가는 바뀌어야 하는 문제 해결 방식이란 것을 NYU는 늘 생각하고 있었습니다.

 

VAST Data 플랫폼과의 만남


병렬 파일시스템 관련 문제를 본질적으로 해결할 방안을 찾던 중 NYU는 VAST Data 플랫폼을 만나게 됩니다. NYU는 VAST Data 플랫폼의 차별화된 접근 방식을 놓치지 않았습니다. NYU의 눈에 비친 VAST Data 플랫폼은 단순한 ‘빠른 NVMe 스토리지’가 아니었습니다. DASE(Disaggregated Shared-Everything) 아키텍처를 통해 컴퓨트 노드와 스토리지 노드를 분리하면서도, 사용자에게는 하나의 통합 리소스처럼 보이도록 해주는 것이 매우 신선하게 다가왔습니다. 뿐만 아니라 NFS, S3 등의 멀티 프로토콜을 동일한 네임스페이스에서 지원하는 것도 눈에 들어왔습니다. 이런 특징들은 HPC, 컨테이너, 가상화 워크로드를 함께 운영하려는 NYU의 필요에 잘 맞았습니다.

 

PoC를 통해 확신을 갖게 된 NYU


본격적인 도입에 앞서 NYU는 PoC 프로젝트를 진행했습니다. 내부 클러스터 환경에 VAST Data 플랫폼를 설치해 다양한 I/O 부하를 적용해 보았고, 노드 장애를 일부러 내보기도 했습니다. 이를 통해 전통적인 병렬 파일시스템에서는 흔히 보던 복구 지연이나 업그레이드 중단 없이도 VAST Data 플랫폼이 안정적인 성능을 보이고, 업그레이드 작업 시 사용자에게 별도 제약을 줄 필요가 거의 없다는 사실을 확인하였습니다.  

한편, PoC 프로젝트를 기회삼아 HPC 워크로드 관련 평가와 함께 VM 이미지를 저장하거나 쿠버네티스(Kubernetes) 환경에서 VAST Data 플랫폼의 CSI 드라이버를 연동했을 때도 안정적인 성능을 내는 지도 살펴보았습니다. 그 결과 가상화와 컨테이너 운영을 확대해 나가던 NYU의 전략과도 맞아떨어지는 플랫폼이란 확신을 갖게 되었습니다.

 

HPC부터 VM, 쿠버네티스까지 아우르는 유연성


PoC 후 NYU는 VAST Data 플랫폼을 도입하였습니다. 설치와 구성을 마친 다음 본격적으로 운영을 하면서 NYU는 확실히 기존 환경과 다르다는 것을 바로 체감하였습니다. 특히 감탄했던 부분은 “한 번 정상 구동을 시작하면 크게 신경 쓸 일이 없고, 문제가 생겨도 원인을 신속히 추적할 수 있다”는 것입니다.


기존 병렬 파일시스템에서는 특정 노드나 사용자가 과도한 I/O를 일으켜도, 누가 문제를 만들고 있는지 찾아내는 데 상당한 시간이 걸렸습니다. 그러나 VAST Data 플랫폼에는 ‘Top Actors’ 기능이 있어 웹 UI나 간단한 명령어로 어느 노드, 어느 사용자, 어떤 작업이 지나치게 부하를 주는지 즉시 파악할 수 있었습니다. 특정 사용자나 노드가 비정상적인 I/O를 발생시키는 경우를 빠르게 해소할 수 있다 보니 HPC 클러스터 전반의 운영 효율성이 높아졌습니다. 또한, VM 이미지를 VAST 스토리지에 두어도 성능 저하가 거의 없었고, 컨테이너 오케스트레이션까지 지원할 수 있게 되었습니다.  

 

사용자 불평 걱정 사라져…


VAST Data 플랫폼 도입 후 NYU는 더 이상 스토리지 관련 성능 저하 관련 HPC 사용자들의 불만을 들을 일이 없어졌다는 것에 만족감을 표하고 있습니다. 기존 병렬 파일시스템에서는 I/O 트러블을 추적하려면 로그나 /proc 디렉터리, 각종 커맨드라인 툴, 자체 스크립트 등을 병용해야 했습니다. 하지만 VAST Data 플랫폼을 도입한 다음부터 문제 상황이 발생했을 때 운영자가 ‘Top Actors’ 페이지에서 곧바로 문제를 일으킨 사용자를 찾아내어 적절한 조치를 취할 수 있게 됐습니다.


NYU는 이 기능 덕분에 전체 스토리지 성능이 떨어질 때마다 진행하던 장시간의 추적 과정을 대폭 줄일 수 있었고, 연구자들이 “왜 이렇게 HPC가 느려졌느냐”며 불평하기 전에 선제적으로 문제를 해결하는 데 도움이 되었다고 합니다.

 

데이터 레이크 프로젝트와 메타데이터 통합


한편, NYU는 VAST Data 플랫폼을 HPC에만 국한하지 않고 그 쓰임을 확대하고 있습니다. 관련해 NYU는 VAST Data 플랫폼을 기반으로 하는 데이터 레이크(Data Lake) 프로젝트를 추진해 파일, 오브젝트, 메타데이터를 통합 관리하는 환경을 만들고 있습니다.


참고로 VAST Data 플랫폼은 내부적으로 파일시스템 전체의 메타데이터를 자동으로 인덱싱합니다. 따라서 커맨드라인의 ‘find’ 명령으로 찾는 것보다 훨씬 빠르게 대규모 데이터를 검색할 수 있습니다. NYU는 VAST Data 플랫폼의 특성을 살려 학술 논문과 함께 그 논문에 연계된 원본 데이터셋도 같은 플랫폼에 저장하여 특정 키워드나 연구 주제로 검색하면 관련된 모든 자료를 간단히 연결 지을 수 있는 환경을 구상하고 있습니다.

 

파일과 오브젝트의 경계를 허무는 통합 환경


NYU는 VAST Data 플랫폼로 파일과 오브젝트의 경계를 허무는 통합 환경에 한걸음 더 가까이 다가설 수 있었습니다. NYU는 교내 시스템과 함께 클라우드도 활용합니다. HPC 파일시스템과 S3 버킷이 전혀 다른 스토리지로 동작하던 전통적인 방식에서는 한쪽 데이터를 다른 프로토콜로 접근하려면 별도의 복제나 동기화가 필요했습니다.


반면에 VAST Data 플랫폼은 동일한 파일을 NFS로 접근할 때는 파일로, S3로 접근할 때는 오브젝트로 볼 수 있어 마치 하나의 시스템처럼 사용할 수 있습니다. 이러한 통합 구조 덕분에 NYU는 HPC와 데이터 레이크 프로젝트를 자연스럽게 결합할 수 있었고, 이에 따라 향후 연구자들이 다양한 프로토콜을 자유롭게 활용하더라도 중복된 관리 부담이 크게 줄어들 것으로 기대하고 있습니다.

 

최신 연구 데이터 인프라의 미래상을 제시한 NYU


NYU 사례는 HPC 운영 또는 대규모 데이터 관리가 필요한 다른 조직에도 시사점을 줄 수 있습니다. 기존에는 병렬 파일시스템이나 SAN 기반 스토리지가 “어쩔 수 없다!”고 여겼던 문제들을 VAST Data 플랫폼을 통해 간소화·자동화할 수 있다는 점이 확인되었기 때문입니다.


NYU는 VAST Data 플랫폼을 활용해 엔터프라이즈급 무중단 운영과 파일·오브젝트 통합, 그리고 유연한 메타데이터 관리가 결합해 최신 연구 데이터 인프라를 구현할 수 있었습니다. NYU처럼 HPC와 데이터 레이크가 하나로 묶이고, 가상머신과 쿠버네티스 환경까지 단일 플랫폼에서 지원하는 운영 방식은 향후 더 많은 대학이나 연구 기관, 그리고 대규모 데이터 환경에서 일상화될 것으로 보입니다. HPC 환경의 인프라를 NYU처럼 미래 지향적으로 바꾸고 싶다면? 대원씨티에스가 도움을 드리겠습니다.

 

 
 
 

Comments


logo_dw.png

대원씨티에스 DIA Nexus

대표이사 : 하성원, 이상호, 김보경   ㅣ  사업자 등록번호 : 106-81-21127  ㅣ   이메일: AI_sales@computer.co.kr

주소: 본사 - 서울시 용산구 청파로 109 나진전자월드빌딩 2층   ㅣ   판교 - 경기도 성남시 분당구 판교역로 240

TEL : 02-2004-7700, 02-2004-7778(영업 문의)

  • Youtube
  • Facebook
  • LinkedIn
bottom of page