[AI골드러시, 엔비디아]③아이폰 이후 첫 변곡점···‘진격의 엔비디아’ 향배

2023.03.09

인공지능(AI)에 의해 구동되는 ‘챗GPT’같은 혁신적 채팅 AI 서비스 모델이 최근 IT업계는 물론 전세계 기업과 사용자들을 강타하고 있다. 챗GPT는 그 뛰어난 성과로 인터넷과 스마트폰에 이어 ‘AI혁명’ 시대를 예고하고 있다. 이에 자극받은 마이크로소프트(MS)와 구글 같은 회사는 이같은 AI 기능을 검색엔진에 통합하기 위한 기술 및 투자 경쟁을 벌이고 있다. 특히 두 회사의 경우 이 시장을 빼앗느냐 유지하느냐가 기업 핵심사업의 흥망과 직접 연결된 문제가 된다. 지난해 말부터 최근까지 이어지고 있는 ‘생성 AI’ 열풍은 멀리는 1990년대 인터넷, 가까이는 지난 2007년 애플의 아이폰 등장 이후 십수년 만에 보는 기술 혁신이다. 전 산업계가 AI기술 혁명에 열광하고 있지만 IT업계에서 가장 큰 힘을 받는 회사로 엔비디아를 빼놓을 수 없다. 엔비디아는 AI 개발에 필수적인 개당 1만달러(약 1300만원)나 되는 그래픽칩(GPU)은 물론 소프트웨어(SW)와 알고리즘 기술을 가진 AI혁명의 가장 중요한 동력 공급처로 떠올랐다. 게다가 AI용 컴퓨팅 파워가 필요한 회사들을 대상으로 한 AIaaS(AI as a Service)까지 제공하기 시작했다. AI 시대의 동력이 왜 GPU 기술회사인 엔비디아에서 나오게 됐는지, 이 회사가 어떻게 AI 생태계를 좌지우지하게 됐는지, 그리고 이 ‘AI시대의 총아’의 향배를 3회에 걸쳐 점검해 본다. CNBC, 벤처비트, IE, 넥스트 플랫폼 등을 참고했다.

①게임 GPU 기술로 AI시대 총아가 되다

②‘GPU+범용 연산기술’, AI 생태계 지배

③아이폰 이후 첫 변곡점···‘진격의 엔비디아’ 향배

AI의 스위트 스팟에서 클라우드 써드파티로서 AIaaS 공급

^{젠슨황은 DGX A100(사진)을 앞세워 AIaaS(AI as a Service)에 나선다. 이 제품은 ①엔비디아 A100 GPU 8개, 메모리 최대 640GB. GPU 간 양방향 대역폭 600GB/초 ②엔비디아 NVS 스위치 6개, 양방향 대역폭 4.8TB/초, ③엔비디아 커넥트x-7. 200Gb/초 네트워크 인터페이스 10개. 최대 500GB/초 양방향 대역폭 ④듀얼 64코어 AMD CPU 및 2TB 시스템 메모리, 3.2배 더 많은 코어로 가장 집약적인 AI 작업 처리 ⑤30TB 4세대 NVME SSD. 최대 50GB/초 대역폭의 3세대NVME SSD보다 2배 빠른 속도를 자랑한다. (자료=엔비디아)}

젠슨황 엔비디아 CEO도 챗GPT의 혁명적 전환의 순간에 무게를 두고 이 기회를 극대화하고 싶어한다. 그는 최근 버클리 경영대학원에서 질문에 답하면서 “지금은 AI에 있어서 아이폰의 순간이다...지금은 모바일 컴퓨팅과 그 밖의 모든 아이디어가 모두가 말하는 제품으로 합쳐진 시기다”라고 말했다.

그렇다면 GPU 생태계로 AI혁명의 원동력을 확실히 확보한 엔비디아는 이른 시일내 행보는 뭘까. 엔비디아는 이제 생성 AI를 보다 효과적으로 활용하기 위해 클라우드에 DGX복합기를 본격적으로 구축해 나갈 계획을 밝혔다.

넥스트 플랫폼은 엔비디아가 지난달 22일 컨퍼런스콜에서 자사 DGX 클라우드에 대해 거의 언급하지 않았지만 AIaaS로 방향을 잡고 있다고 썼다. AIaaS는 AI 아웃소싱의 서드파티 제품이다. AIaaS는 개인과 기업이 대규모 초기 투자 없이도 위험 부담이 적은 다양한 목적으로 AI를 실험할 수 있도록 한다.

이 매체는 “엔비디아는 자체 자금으로 자체 클라우드 인프라를 구축할 정도로 크거나 어리석지 않다. 젠슨황 CEO는 오픈스택, VM웨어, 델 및 HPE 등이 모두 지난 10년간 AWS, 구글클라우드와 MS 애저를 따라잡으려 치려고 노력했다. 하지만 모두 실패했다. 구글과 페이스북과 같은 거대한 광고 사업, MS 같은 거대한 SW사업, 그리고 아마존과 애플과 같은 선두주자 우위를 가진 거대한 소매 사업을 보유한 기업 외에 IT 분야의 어떤 기업도 실제로 자체 클라우드를 구축할 수 없다. 페이스북과 애플은 대규모 인프라를 구축하지 않고 용량을 임대하지 않기로 결정했다. 그러나 다른 기업들은 수백만 개의 다른 조직들이 돈을 내고 컴퓨팅 용량을 빌리게 만드는 지혜를 갖고 있다. 즉, 비즈니스 운영에 필요한 용량보다 100~1만배 더 많은 용량을 제공하고 그렇게 해 주는데 대한 프리미엄 비용을 받는 것이다... 엔비디아는 은행에 130억 달러 이상의 현금을 보유하고 있고...충분한 시가총액을 보유하고 있음에도 빅 클라우드 구축 게임을 할 만큼 충분히 부유하지 않다. 따라서 엔비디아는 자체 클라우드를 구축하는 차선책을 취할 것으로 보인다. 즉, 자체 DGX 시스템을 말 그대로 빅 클라우드 내부에 배치해 고객이 자체 데이터 센터에 설치할 수 있는 것과 동일한 아이언을 클라우드 상에서 사용할 수 있게 되는 것이다”라고 설명했다.

엔비디아 DGX 클라우드에 대한 자세한 내용은 오는 20일(현지시각)부터 24일까지 5일간 열리는 GTC2023 컨퍼런스에서 발표될 예정이다. 하지만 젠슨 황 엔비디아 CEO는 미리 약간의 정보를 흘렸다. 그는 지난달 22일 월스트리트 분석가들과의 통화에서 “모든 기업 고객이 AI를 이용할 수 있도록 주요 서비스 클라우드 서비스 업체와 협력해 엔비디아와 파트너 네트워크를 통해 직접 제공되고 세계 최대 클라우드들 내에서 호스팅되는 엔비디아 AI 클라우드 서비스를 제공한다. 엔비디아 AIaaS(AI as a Service)는 기업들이 세계 최첨단 클라우드가 제공하는 스토리지, 네트워킹, 보안 및 클라우드 서비스에 근접하면서 세계 최첨단 AI 플랫폼에 쉽게 액세스할 수 있도록 한다”고 밝힌 것이다.

젠슨 황은 이어 “고객들은 엔비디아 AI 클라우드 서비스를 AI 슈퍼컴퓨터 가속 라이브러리 SW, 또는 사전 훈련된 AI 모델 계층으로 참여시킬 수 있다. 엔비디아 DGX는 AI 슈퍼컴퓨터이며, 전 세계에 지어지고 있는 AI 공장의 청사진이다. AI 슈퍼컴퓨터는 구축하기 어렵고 시간이 많이 소요되며, 오늘 우리는 당신만의 DGX AI 슈퍼컴퓨터를 갖는 가장 빠르고 쉬운 방법인 엔비디아 DGX 클라우드를 발표할 것이다. 브라우저를 열기만 하면 된다. 엔비디아 DGX 클라우드는 이미 오라클 클라우드 인프라와 MS 애저, 구글 GCP 등을 통해 제공되고 있다”고 말했다.

GPU와 AI열풍이 이어지면서 지속될 성장 잠재력

^{엔비디아가 GTC 2022에서 발표한 H100 텐서코어 GPU. A100 GPU보다 대규모 AI 및 HPC 성능이 크게 향상된 설계를 적용했다. 최고 A100의 4배에 이르는 속도 성능을 제공한다. 엔비디아는 이 칩이 3950개 매개변수를 가지고 초대형 모델에서 최대 9배의 AI 훈련을 할 수 있다고 말한다. (사진=엔비디아)}

엔비디아의 GPU가 10년 전 딥 러닝 혁명의 중심에 있었던 것처럼, 이제 엔비디아의 HW와 SW는 GPU 성능에 목말라하면서 오늘날 선풍적 인기를 얻고 있는 상당수 생성 AI 기술의 배후에서 실행되고 있다.

엔비디아의 AI칩 책임자인 브라이언 카탄잘로 소장은 그는 엔비디아가 새로운 챗 GPT 시대를 통해 더욱 발전할 수 있으며 어떤 것도 외주화하지 않는다고 말한다. 그는 엔비디아는 칩에서부터 애플리케이션, 알고리즘, 라이브러리, 컴파일러 프레임워크, 그리고 상호 연결된 데이터 센터 아키텍처에 이르기까지 모든 문제를 맨위에서 맨 아래까지 직접 해결한다고 설명했다.

올해 1월 나온 마켓워치의 2023년 글로벌 GPU 시장규모 성장률 분석 보고서에 따르면 세계 그래픽 처리 장치(GPU) 시장은 2019년에 184억 3000만 달러(약 24조 원)에서 오는 2026년 말에는 306억 7000만달러(약 40조 원)에 이를 것으로 예상됐다. 2021~2026년 동안 연평균 7.7%의 성장률을 기록할 것으로 보인다. 이는 향후 지난 몇 년간, 그리고 향후에도 기계 학습을 위한 GPU의 사용이 발전할 것임을 보여주는 지표다.

경쟁자 가운데 AMD GPU의 경우 게임용으로는 탁월하지만, 딥러닝에 관한 한 엔비디아를 능가하지 못한다. 게다가 SW 최적화 문제와 자주 업데이트해야 하는 드라이버 때문에 덜 사용되고 SW 지원이 극히 제한적이다. AMD는 ROCm과 같은 라이브러리를 제공한다. 이는 AMD가 2016년에 발표한 GPGPU SW 및 고성능컴퓨터(HPC) 플랫폼으로서 엔비디아의 쿠다에 대응된다. 텐서플로 및 파이토치뿐 아니라 모든 중요한 네트워크 아키텍처가 이 라이브러리를 지원한다. 그러나 새로운 네트워크 개발에 대한 커뮤니티의 지원은 미미하다.

반면 엔비디아는 빈번하게 업데이트되는 우수한 드라이버를 갖추고 있으며, 여기에 쿠다(CUDA·Compute Unified Device Architecture)와 엔비디아 쿠다심층신경망(CUDNN·CUDA Deep Neural Network)이 연산 속도를 높이는 데 도움이 된다. 쿠다는 GPU에서 수행하는 병렬 처리 알고리즘을 C 프로그래밍 언어를 비롯한 산업 표준 언어를 사용해 작성할 수 있도록 해 준다.

엔비디아는 이런 트렌드와 시장전망 속에서 오는 20일(현지시각)부터 24일까지 5일간 열리는 생성 AI에 초점을 맞춘 65개 이상의 세션을 갖는 자사 GTC2023 행사를 AI시대를 맞아 더욱더 도약할 최고의 기회로 삼으려 할 것이다.

엔비디아는 어떤 회사가 생성AI에서 1위를 차지하든 상관하지 않을 것이다. 그 회사가 구글이든, MS든 오픈AI든 간에 이들 모두에게 GPU와 관련 생태계 기술을 공급하는 엔비디아가 크게 이익을 얻을 것으로 보기 때문이다. 다만 GPU 전문업체가 아닌 한 회사와 그 제품이 이 경쟁에서 예외가 될 수 있다. 바로 구글과 이 회사 텐서처리장치, 즉 TPU(Tensor Processing Unit) v4 칩이다.

엔비디아 GPU의 가장 강력한 도전자, 구글 TPU

^{순다르 피차이 구글 CEO가 I/O 2021 행사에서 TPU v4를 발표하고 있다. (사진=구글)}

GPU와 TPU 모두 AI, 딥러닝 또는 머신러닝에 관해서는 제공할 수 있는 것이 많다.

GPU는 복잡한 문제를 수천 또는 수백만 개의 개별 작업으로 분해하여 한 번에 해결할 수 있는 능력이 있는 반면 TPU는 신경망 부하를 위해 특별히 설계됐으며 GPU보다 더 적은 리소스를 사용하면서도 빠르게 작동할 수 있는 능력이 있다.

최근 AI의 인기가 지속적으로 높아지면서 많은 사람들이 TPU와 GPU의 비교 성능에 대한 관심이 높아졌다.

오픈메탈은 구글의 TPU가 딥러닝이나 기계학습 애플리케이션을 위한 지정 아키텍처라며 딥러닝 처리 속도만 놓고 보면 엔비디아 GPU를 능가한다는 분석결과를 전한다. 애널리틱스비디아는 지난해 8월 신경망 추론을 사용하는 AI애플리케이션에 적용한 결과 TPU가 기존 GPU나 CPU보다 15~30배 빠르다고 보도했다.

그렇다면 TPU와 GPU 중 어느 것이 사용자에게 더 좋을까. 많은 사람들이 TPU와 GPU를 비교하지만, 두 가지는 매우 다른 구성 요소다. 장단점이 있다.

앞서 언급한 것처럼 GPU는 원래 비디오 렌더링과 같은 것들의 속도를 높이기 위해 3D 그래픽용으로 설계되고 사용됐지만 시간이 지남에 따라 병렬 컴퓨팅 능력을 통해 AI용으로 매우 인기 있는 선택이 됐다. 병렬 컴퓨팅을 통해 GPU는 복잡한 문제를 수천 또는 수백만 개의 개별 작업으로 나누고 CPU가 수행해야 하는 것처럼 하나씩 해결하는 대신 한꺼번에 해결하며, 분석 모델 구성을 자동화하는 데이터 분석의 한 형태인 AI와 기계학습용으로 완벽하다. 이는 GPU가 일반적으로 하나의 프로세서에 2500~5000개의 산술 논리 유닛(ALU)을 포함하고 있어, 잠재적으로 수천 개의 곱셈과 덧셈을 동시에 실행할 수 있기 때문이다.

그러나 GPU에서 한가지 유의할 점은 GPU가 수백만 개의 다양한 애플리케이션과 SW를 지원해야 하는 범용 프로세서로 설계됐다는 점이다. 따라서 GPU는 한 번에 여러 기능을 실행할 수 있지만, 이를 위해서는 레지스터나 공유 메모리에 액세스해 중간 계산 결과를 읽고 저장해야 한다. 또한 GPU는 수천 개의 ALU(Arithmetic and Logic Unit·산술 논리 장치)에 대해 엄청난 병렬 계산을 수행하기 때문에 메모리에 액세스하기 위해 많은 양의 에너지를 소비하며, 이는 GPU의 설치 공간을 늘린다.

현재 딥 러닝에 사용되는 가장 인기 있는 프로세서 아키텍처가 GPU이긴 하지만 구글 TPU는 나름대로의 장점을 바탕으로 빠르게 인기를 얻어 가고 있다.

그렇다면 구글의 TPU는 어떻게 어떤 성능으로 AI시대의 엔진이랄 엔비디아 GPU를 견제하고 대항마로 등장하게 되는 걸까.

구글 TPU의 ‘무자비한’ 성능 발전

^{구글 TPU v1(왼쪽위부터 시계방향으로), TPU v2, TPU v3, TPU v4. (사진=구글)}

구글이 개발한 TPU는 머신러닝의 계산 수요를 처리하고 AI 계산과 알고리즘을 가속화하기 위해 특별히 설계된 주문형칩(ASIC)이다. 구글은 2015년부터 내부적으로 TPU를 사용하기 시작했으며, 2018년에는 다른 사람들이 TPU를 공개적으로 사용할 수 있도록 했다. 구글은 TPU를 설계할 때, 그들은 도메인별 아키텍처를 만들었다. 즉, 구글은 GPU나 CPU와 같은 범용 프로세서를 설계하는 대신 신경망 작업 부하에 특화된 매트릭스 프로세서로 설계했다는 것이다.

구글은 TPU를 범용 프로세서가 아닌 매트릭스 프로세서로 설계함으로써 GPU와 CPU의 속도가 느려지고 처리 능력을 더 많이 사용해야 하는 단점인 메모리 액세스 문제를 해결했다. 대규모 계산 및 전체 데이터 전달 프로세스에서 메모리 액세스가 전혀 필요하지 않다.

그럼으로써 TPU역시 머신러닝 애플리케이션 가속화, 애플리케이션 신속한 확장, 머신러닝 워크로드 비용 효율적 관리, 잘 최적화된 오픈 소스 참조 모델로 시작하는 등 원하는 사용자에게 적합한 선택으로 꼽히게 된다.

하지만 애널리틱스 비디아는 TPU 칩의 유일한 진짜 단점으로 GPU와 CPU보다 비싸다는 점을 꼽는다. 그러나 그 성능상 장점은 높은 가격을 상쇄할 정도가 아니라 훨씬 능가한다고 분석한다.

구글은 지난 수년간 TPU칩으로 무자비하다고 할 정도의 AI훈련 분야 진전 및 배치 양상을 보여 왔다.

지난 2015년 이래 TPU 발전을 보면 TPU v1(92 테라옵스, 추론 전용)을 첫 배치한 것을 시작으로, 2017년에 AI훈련, 추론 및 일반용 TPU v2(180 테라플롭스, 64GB 고대역폭 메모리·HBM)를 내놓았고 클라우드(2017), 팟(2018)에 배치했다. 당시 팟에서는 11.5 페타플롭스(1페타플롭스=초당 1000조 연산)를 기록했다. 2018년 TPU v3 클라우드 베타(420 테라플롭스,1테라=1조, 128GB HBM)를 내놓았다. AI훈련 및 추론용이었으며 TPU 팟에서는 100페타플롭스 이상의 연산속도를 기록했다. (TPU 팟은 전용 고속 네트워크 인터페이스로 연결된 TPU 장치의 집합으로서 처리 부하를 여러 TPU에 분산시킨다. 각 TPU 보드는 데이터 로드 및 전처리와 같은 작업을 위해 고성능 CPU 기반 호스트 시스템에 연결된다.)

2020년 7월 구글은 4세대 텐서 프로세싱 유닛 칩인 TPU v4의 MLPerf 벤치마크 결과를 발표했다. TPU v4의 성능은 TPU v3의 성능에 비해 평균 2.7배 향상됐다는 것을 밝혔다. 그리고 2021년 순다르 피차이 구글 CEO는 구글 I/O행사에서 이 칩을 발표했다.

AI모델을 움직이는 엔진 공급을 둘러싼 경쟁도 AI경쟁만큼이나 뜨거워지고 있다.

#AI #AI골드러시 #GPU #TPU #구글 #아이폰 #엔비디아 #엔비디아 DGX 클라우드 #젠슨황 #챗GPT

이재구 기자

jklee@tech42.co.kr

기자의 다른 기사보기