AI PC 경쟁, 칩 성능 넘어 ‘시스템 최적화’로…노타, GPU·NPU 분리형 추론 구현

테크놀로지

AI PC 경쟁, 칩 성능 넘어 ‘시스템 최적화’로…노타, GPU·NPU 분리형 추론 구현

김한수 기자

2026.06.04

가

인텔 루나 레이크 기반 AI PC에서 LLM 연산 단계별 분산 배치

단일 GPU 대비 에너지 소비 32% 절감·생성 처리량 12% 개선

단일 NPU 대비 첫 응답 지연 89% 단축…온디바이스 AI 효율성 입증

_{동일한 LLM을 AI PC에서 실행한 비교 화면. 노타의 분리형 추론 방식은 입력 처리와 답변 생성을 GPU·NPU에 나눠 배치해 단일 연산 장치 기반 실행보다 빠르게 응답을 완료했다. (이미지=노타)}

AI PC의 성능 경쟁이 개별 칩의 연산 능력을 넘어, GPU와 NPU 등 여러 연산 장치를 얼마나 효율적으로 조합하느냐의 문제로 확장되고 있다. 대규모언어모델(LLM)을 PC 내부에서 실행하는 온디바이스 AI 환경에서는 제한된 전력과 연산 자원을 활용해야 하는 만큼, 하드웨어 구성 전체를 고려한 최적화 역량이 사용자 경험을 좌우하는 핵심 요소로 떠오르고 있다.

AI 경량화 및 최적화 기술 기업 노타는 AI PC 환경에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 구현했다고 4일 밝혔다. 이기종 컴퓨팅은 CPU, GPU, NPU처럼 서로 다른 특성을 가진 프로세서가 각자 강점을 가진 연산을 나눠 처리하도록 구성하는 방식이다.

노타는 인텔 루나 레이크 기반 AI PC에서 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로 나눠 분석했다. 이후 입력 처리 연산은 GPU에서, 답변 생성 연산은 NPU에서 수행하도록 배치하는 ‘분리형 추론’ 방식을 적용했다. 단순히 여러 연산 장치를 동시에 사용하는 것이 아니라, AI 모델의 작업 흐름과 하드웨어 특성을 맞물리게 설계한 것이 특징이다.

성능 평가에서도 효율 개선이 확인됐다. 노타에 따르면 분리형 추론 적용 결과 단일 GPU 실행 방식과 비교해 토큰당 에너지 소비는 약 32% 줄었고, 생성 처리량은 약 12% 높아졌다. 단일 NPU 방식과 비교해서는 첫 응답 지연시간이 약 89% 단축됐다. 평가는 인텔 루나 레이크 기반 AI PC와 MoE LLM, 컨텍스트 윈도 크기 512 조건에서 진행됐다.

이번 결과는 같은 AI PC라도 연산 장치를 어떻게 배분하느냐에 따라 실제 응답 속도와 전력 효율이 달라질 수 있음을 보여준다. 특히 AI 에이전트용 PC처럼 로컬 환경에서 LLM을 반복적으로 실행해야 하는 경우, 모델 경량화뿐 아니라 런타임과 하드웨어 활용 방식까지 함께 최적화하는 접근이 중요해질 수 있다.

노타는 이번 성과가 AI PC 확산 흐름 속에서 자사의 온디바이스 AI 최적화 역량을 보여주는 사례라고 설명했다. 회사는 모델 경량화, 런타임 최적화, 하드웨어 최적화 기술을 결합해 AI PC 환경에서 LLM 실행 효율을 높여 나간다는 계획이다.

채명수 노타 대표는 “AI PC 시대에는 AI 모델을 기기 안에 올리는 것만으로는 충분하지 않다”며 “GPU, NPU 등 다양한 연산 장치를 모델 특성에 맞게 조합하는 최적화 역량이 실제 AI 경험을 좌우한다”고 말했다.

#AI PC #GPU #NPU #시스템 최적화

김한수 기자

hanskim@tech42.co.kr

기자의 다른 기사보기

"AI 시대 경쟁력, 사용법이 아니라 사고력이다"

MIT 미디어랩의 '인지 부채' 뇌파 연구와 구글 딥마인드·앤트로픽의 철학자 채용 사례를 함께 짚었다. AI에 사고를 위탁할수록 뇌 활동은 둔해지지만, 노동시장 일각은 AI가 대신할 수 없는 인간의 비판적 사고력에 더 높은 값을 매기고 있다는 진단이다.

인사이트42 스타트업 인터뷰 테크놀로지

[현장] 위성과 AI가 재배 돕고 로봇이 수확·도축하고…‘AFPRO 2026’서 본 농업의 진화

농사를 짓다 궁금한 것이 생기면 인공지능(AI)에 묻고, 사람이 일일이 돌아보던 넓은 노지는 위성 데이터로 살핀다. AI가 크기와 형태가 제각각인 가축을 인식해 로봇이 도축 공정 일부를 수행하도록 하고, 수확과 예찰 같은 반복 농작업도 로봇으로 대체하려는 시도가 이어지고 있다. 생산된 농식품이 소비자에게 이동하는 물류 과정에서는 탄소 배출량을 데이터로 측정·관리하는 기술까지 등장했다. AI가 모니터 속 분석 도구를 넘어 농업 현장에서 직접 보고 판단하고 움직이는 단계로 확장되고 있는 셈이다.

디지털마케팅 테크놀로지

생성형 AI, 어디를 근거로 삼나…SNS 인용 28.2%, 언론보다 높아

20일 함샤우트 글로벌 산하 AI 연구소와 AI 전문 자회사 딜라이트커뮤니케이션이 국내 30개 산업군을 대상으로 생성형 AI의 인용 출처를 분석한 결과, 정보 탐색형 질문에서는 블로그·유튜브·커뮤니티 등 소셜미디어(SNS)가 가장 큰 비중을 차지한 것으로 나타났다.

인사이트42 테크놀로지

‘제2의 딥시크’로 떠오른 Kimi K3…중국 AI, 이번엔 ‘규모와 개방’으로 미국 최상위권 추격

중국에서 또 다른 모델이 미국 AI 업계의 시선을 끌고 있다. 중국 AI 스타트업 문샷AI(Moonshot AI)가 자사 AI 서비스 ‘Kimi(키미)’를 통해 선보인 최신 플래그십 모델 ‘Kimi K3(키미 K3)’다. 외신에 따르면 지난 16일 등장한 K3가 중국과 미국의 최첨단 AI 성능 격차를 좁히고 있다. 2조8000억개 파라미터를 가진 K3의 등장과 중국 AI 기업들의 빠른 추격 역시 집중 조명됐다. 기술적 추격은 시장의 투자 논리에도 곧바로 연결됐다. 한국이 17일 제헌절 연휴로 증시가 쉬는 사이 글로벌 반도체주는 K3 공개와 맞물려 흔들렸다. 개방형 전략을 앞세운 중국 모델이 폐쇄형 최상위 모델과의 성능 격차를 빠르게 좁힐 경우, 막대한 AI 인프라 투자가 계속 필요한지에 대한 의구심이 다시 커질 수 있다는 우려가 부각됐다는 분석이다.