AI 시대를 맞아 제2의 전성기 맞은 NFS

인공지능(AI)에서 미래를 찾는 기업은 빠르게 늘고 있다. 업종과 규모를 가리지 않고 일어나는 현상이다. 오랜 기간 특별한 투자로 여겨지던 AI가 이제는 보편적인 투자가 되면서 인프라 구축과 운영을 바라보는 시각이 달라지고 있다. 

전통적인 인프라 전략을 AI에 적용하다 보니 뭔가 맞지 않는 부분이 많다는 것을 기업이 체감하고 있다. 몇몇 기업은 유사성이 높은 HPC 환경에서 답을 찾기도 한다. 컴퓨팅 측면만 보면 이해가 가는 접근이다. 그러나 이 방법도 AI 환경을 위한 최선의 선택은 아니다. 스토리지가 구축과 운영이 AI와는 좀 다르기 때문이다. 

러스터 파일시스템 기반 스토리지가 AI에 맞지 않는 이유 

HPC 인프라를 운영하는 많은 곳에서 x86과 리눅스 기반 범용 시스템과 HDD를 이용한 분산 아키텍처를 채용하고 있다. 이 환경에서 러스터(Lustre) 같은 오픈 소스 기반 파일시스템을 적용한다. 이렇게 구성한 스토리지는 HPC 워크로드에 맞는 성능과 확장성을 한다. 

하지만 AI 환경에는 이런 장점이 빛을 발하지 못한다. 병렬 파일시스템 기반 분산 환경은 스토리지 인프라 구성이 비교적 단순한 편에 속한다. 하지만 그 논리적 구조를 보면 매우 복잡하다. 클라이언트에 전용 드라이버를 설치해야 하고, 대용량 데이터 처리를 위해 메타 데이터 서버를 따로 운영해야 하는 관리 포인트가 많은 구성이다(아래 그림 참조). 경우에 따라 상용 고성능 병렬 파일시스템 기반 스토리지를 적용할 수 있는데, 이 경우는 특정 기술과 업체에 종속될 우려가 있다. 

출처: https://wiki.lustre.org/Introduction_to_Lustre
출처: https://wiki.lustre.org/Introduction_to_Lustre

인프라 운영자에게 더 큰 부담으로 다가오는 것이 있다. 바로 리눅스 운영체제 업그레이드다. 각 노드를 구성하는 리눅스 시스템은 주기적인 업그레이드가 필요하다. 보안 패치, 정기 업데이트 등의 이유로 진행하는 업그레이드 작업을 피할 수 없다. 

문제는 이 작업이 인프라 운영자에게 ‘자살 협정’과 다를 바 없다는 것이다. 커널 업그레이드는 곧 병렬 파일시스템 기반 스토리지 환경의 중단을 의미한다. 물론 프로덕션 환경의 중단 없이 스케줄링 하겠지만 업그레이드는 어떤 문제가 일어날지 몰라 늘 이전 상태로 돌아갈 수 있는 롤백을 고려해야 하는 만큼 부담이 크다. 

또한 AI 인프라 사용자인 데이터 과학자와 개발자의 눈에도 러스터 파일시스템 기반 분산 스토리지는 성능 저하의 우려가 있다. 미국 에너지부가 발행한 보고서(AI for Science)에서도 보면 러스터 파일시스템 기반의 버스트 버퍼 지원 스토리지 시스템은 AI 환경의 과중한 랜덤 읽기 액세스 워크로드를 전제로 설계되지 않아 성능이 떨어지는 경우가 많다고 언급하고 있다. 이런 이유로 많은 기업이 AI 전용 스토리지 인프라의 새로운 대안을 찾고 있다. 

 

NAS의 단순함과 차세대 NFS의 강력함

최근 가장 유력한 대안으로 급부상하고 있는 기술이 있다. 우리에게 너무나도 익숙한 NAS(Network Attached Storage)가 그 주인공이다. 지금까지 우리가 접한 전통적인 NFS 파일시스템 기반 NAS는 AI 워크로드를 처리하기에 너무 느린 문제가 있다. 

가령 NVIDIA DGX A100의 데이터 처리량인 200GB/s를 처리하기에 턱없이 부족한 2GB/s의 대역폭을 지원한다. 그렇다면 HPC 파일시스템의 높은 확장성과 성능이 이점과 NAS의 단순성과 경제성이 높은 장점을 모두 누릴 수 있는 AI 전용 스토리지는 없는 것일까? 

다행히 있다. NFS는 과거에 머문 파일시스템이 아니다. 리눅스 커널 버전업이 거듭되는 가운데 성능 최적화가 지속해서 이루어지고 있다. 여기에 RDMA와 NVIDIA의 GDS(GPUDirect Storage) 같은 기술의 등장으로 네트워킹 측면의 성능도 크게 높아졌다. 이런 여러 개선 사항을 하나의 아키텍처로 정의하고 구현한 것이 VAST 데이터의 유니버설 스토리지다. 이 아키텍처는 최신 NVMe SSD인 QLC 드라이브와 스토리지 클래스 메모리인 인텔 옵테인을 적용한 인클로저를 사용하여 성능과 경제성을 모두 잡았다. 

 

VAST 데이터의 접근은 AI 환경을 위한 스토리지 고려 요소인 속도, 복잡성, 비용 각각에 명확한 답을 제시한다. 먼저 속도의 경우 NAS 구조임에도 NVIDIA DGX A100의 데이터 처리량인 200GB/s에 근접한 처리량을 보여 준다. 다음으로 복잡성은 NFS 기반 NAS가 갖는 간소화된 구조와 운영 방식을 통해 해소한다. 비용 절감 방안은 CPU, GPU 자원 효율성을 극대화하는 가운데 QLC 드라이브를 통해 제시한다. 

살펴본 바와 같이 AI 환경은 지금껏 적용한 엔터프라이즈 스토리지 구축과 운영 방식으로 소화하기 어렵다. 유사성이 크다 볼 수 있는 HPC 환경에서 해왔던 분산 구조도 맞지 않는다. 속도, 복잡성, 비용 세 측면에서 가장 합리적인 AI 전용 스토리지 아키텍처가 필요한 이유다. 

김성태

sungtai@uclick.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

구글뉴스에 언론사의 매체 등록이 어려워지다…신생 언론사 혼란 예상

이제는 구글 뉴스 정책이 1단계와 2단계를 수동 신청에서 자동으로 변경했기 때문에 과거 언론사들이 힘들어하던 3단계의 답답함이 더욱 심화될 것으로 보입니다. 이제는 구글에 매체 등록 승인 신청을 할 수 없기 때문에 내 매체가 구글 뉴스에 매체 등록된 것조차도 확인하기 어려워지기 때문입니다.

가볍게 훑어보는 엔비디아 히스토리 ①리바TNT부터 지포스256까지 GPU의 시작

요즘 가장 뜨거운 기업은 엔비디아죠. 엔비디아는 왜 유명해졌고, 어떻게 성장해 왔는지, 또 지금 왜 가장 주목받는 기업이 되었는지 이야기를 풀어봅니다.

바쁘다 바빠 현대사회! 끝내지 못한 일때문에 괴롭다면?

끝내지 못한 일이 이들을 심리적으로 긴장하게 하고, 그 일에 미련을 갖게 해 더 오래 기억한 건데요. 이걸 자이가르닉 효과라고 합니다.

이제는 AGI를 준비해야 할 시기

이제는 생성형 인공지능을 뛰어넘는 범용 인공지능을 언급하는 시대가 도래하고 있어요. 여러 분야에 두루 쓰이는 인공지능이라면 인공지능을 필요로 하는 기업들의 까다로운 입맛에 잘 맞춰줄 수 있지 않을까요?