AI 스토리지 아키텍처 트렌드는?

최근 AI 환경의 전용 스토리지 시스템으로 발표되고 있는 스토리지 아키텍처들은 대부분 분리되고 모든 자원을 공유하는 아키텍처를 따릅니다.

이 방식이 조금은 낯설 수 있습니다. 약 30년간 스토리지 분야를 주도한 아키텍처는 아무것도 공유하지 않는 방식이 대세였습니다. 이 방식이 갖는 장점은 빠른 성능과 고가용성 보장입니다. 물론 단점도 있습니다. 높은 비용을 수반하는 확장 방식입니다.

AI-클라우드-첨단 분석 시대에 뒤처진 공유하지 않는 아키텍처

지난 10년 간 아무것도 공유하지 않는 방식은 하이퍼컨버지드 스토리지부터 시작해 파일 스토리지, 오브젝트 스토리지, 데이터웨어하우스 어플라이언스 등의 부문에서 유일무이로 통했습니다.

그렇다면 2021년 현재 하이브리드, 멀티 클라우드 환경에서 AI, HPC, 첨단 분석 워크로드 실행에 최우선 순위를 두는 시대에 아무것도 공유하지 않는 아키텍처는 여전히 유효할까요?

결론부터 말하자면 그렇지 않습니다. 그 이유는 크게 4가지로 구분해 볼 수 있습니다.

모든 자원을 공유하는 아키텍처로 발전할 수 밖에 없는 이유 네 가지

공유하지 않는 아키텍처가 유효하지 않는 첫 번째 이유는 해당 아키텍처는 반드시 CPU와 저장 매체를 단일 장비에 모두 담아야 하는 것입니다.

공유하지 않는 아키텍처를 따르는 초기 스토리지 시스템은 TCP 기반의 네트워크가 DAS 방식의 스토리지보다 느리다는 가정 하에 CPU와 저장 매체가 짝을 이루어 함께 위치하도록 설계되었습니다.

예전에는 이런 가정이 맞았지만, 지금은 틀립니다. NVMe-oF와 같은 현대화 기술의 출현으로 스토리지 장비에서 CPU 자원을 분리할 수 있게 되었습니다.

이에 따라 플래시 드라이브(SSD)와 플래시 메모리(Persistent Memory; 예, Intel Optane 3D XPoint)에 원격으로 액세스해도 성능에 영향을 끼치지 않습니다.

 

두 번째 이유는 시스템 확장에 비효율적이며 불필요한 추가 비용이 필요합니다. 아무것도 공유하지 않는 아키텍처의 시스템은 확장이 필요할 때, 컴퓨팅 파워와 스토리지 용량을 함께 늘려야 합니다. 이런 식의 확장은 과도한 비용 부담을 강요하게 됩니다. 2021년 현재 기술의 발전으로 이제는 필요에 따라 컴퓨팅 자원(CPU)만 또는 스토리지만 선택적으로 확장할 수 있습니다.

 

세 번째는 공유하지 않는 방식의 스토리지 시스템은 효율성을 높이는 데 있어 제약이 있습니다. 아무것도 공유하지 않는 클러스터 환경에서는 데이터를 전체 노드에 걸쳐 분산 저장(stride) 합니다.

따라서 스토리지 효율을 높이려면 동시에 읽기/쓰기가 가능한 병렬 스트라이프 수(Stripe Width)나 샤시에 제한을 두거나, 데이터 절감 메타 데이터 복제에 제약을 걸거나, 데이터 절감률을 낮춰야 합니다. 반면에 모든 것을 공유하는 아키텍처의 경우 더 효율적으로 RAID 스트라이프를 빌드 할 수 있습니다. 또한 SSD를 특정 컨트롤러가 독점하지 않으므로 글로벌 데이터 절감을 더 효율적으로 수행할 수 있습니다.

마지막으로, 네 번째는 마이크로서비스 아키텍처에 공유하지 않는 아키텍처 기반 스토리지가 적합하지 않다는 것입니다. 최근 컨테이너는 많은 조직이 선호하는 애플리케이션 배포와 운영 수단입니다. 이를 시작으로 애플리케이션 현대화 여정을 걷는 조직은 마이크로서비스 아키텍처 환경으로 진화를 하고 있습니다.

마이크로서비스 아키텍처는 도커, 쿠버네티스 등 오픈 소스 기반 개방형 표준 기술을 기반으로 합니다. 따라서 레거시 환경부터 하이브리드, 멀티 클라우드 환경까지 다양한 곳에 경계 제약 없이 마이크로서비스의 배포와 관리가 가능합니다.

이 같은 마이크로서비스 아키텍처가 갖는 유연성과 민첩성의 특징을 살리려면 데이터 서비스를 더 쉽게 프로비저닝하고 확장할 수 있어야 합니다. 분리되고 모든 것을 공유하는 아키텍처는 컨테이너 기반으로 컨트롤러를 배포하고 NVMe-oF를 통해 이더넷이나 인피니밴드 네트워크를 플래시 메모리(3D XPoint)와 플래시 드라이브(QLC) 공유 풀에 성능 저하 없이 유연하게 접근할 수 있는 확실한 방안을 제시합니다.

이상으로 공유하지 않는 아키텍처를 따르는 전통적인 엔터프라이즈 스토리지가 AI, HPC, 첨단 분석의 시대에 맞지 않는 이유를 알아보았습니다. 더 자세한 내용은 추후 상세히 다루어 보겠습니다.

김성태

sungtai@uclick.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

스타트업 투자 유치 로드맵: 계획부터 협상까지

AI 요약 투자는 우리 회사의 성장을 믿어줄 ‘강력한 파트너’를 구하는 긴 여정입니다. 투자 유치의 전체 로드맵을 통해 지금 내가 어디에...

스타트업 HR의 핵심: 평가와 보상 제도 설계부터 커뮤니케이션까지

AI 요약 스타트업 HR의 가장 큰 과제는 제한된 자원으로 최대 효과를 내는 것입니다. 하지만 대기업처럼 복잡한 시스템을 그대로 가져오면 속도가...

스타트업 인사관리 툴 처음 도입할 때 하는 오해 4가지 (+ 솔루션 추천)

초기 스타트업에게 인사관리 툴 도입은 비용 대비 효과를 빠르게 체감할 수 있는 자동화 경험입니다. 반복되는 휴가 승인・구성원 정보 정리・인사 이력 관리 등은 엑셀이나 메신저로도 시작할 수 있지만, 인원이 늘고 예외가 쌓이기 시작하면 관리 자체가 일이 되기 때문입니다. 이때 인사관리 툴은 ‘조직이 처음으로 업무를 시스템에 맡기는 경험’을 하게 만드는 도구가 됩니다.

스타트업 연차 관리, 실무자가 가장 많이 묻는 Q&A 총정리

이번 블로그는 연차를 관리하며 가장 자주 하시는 고민을 Q&A 형식으로 정리했습니다. 질문들에는 실제로 ZUZU가 연차 운영 웨비나에서 받은 사전 질문과, 인사 관리 서비스 ZUZU HR을 준비하며 들은 실무자들의 고충이 담겨있습니다. 인사 담당자, 혹은 대표님의 연차 관리 부담을 줄이는 데에 도움이 되면 좋겠습니다.