AI PC 경쟁, 칩 성능 넘어 ‘시스템 최적화’로…노타, GPU·NPU 분리형 추론 구현

테크놀로지

AI PC 경쟁, 칩 성능 넘어 ‘시스템 최적화’로…노타, GPU·NPU 분리형 추론 구현

김한수 기자

2026.06.04

가

인텔 루나 레이크 기반 AI PC에서 LLM 연산 단계별 분산 배치

단일 GPU 대비 에너지 소비 32% 절감·생성 처리량 12% 개선

단일 NPU 대비 첫 응답 지연 89% 단축…온디바이스 AI 효율성 입증

_{동일한 LLM을 AI PC에서 실행한 비교 화면. 노타의 분리형 추론 방식은 입력 처리와 답변 생성을 GPU·NPU에 나눠 배치해 단일 연산 장치 기반 실행보다 빠르게 응답을 완료했다. (이미지=노타)}

AI PC의 성능 경쟁이 개별 칩의 연산 능력을 넘어, GPU와 NPU 등 여러 연산 장치를 얼마나 효율적으로 조합하느냐의 문제로 확장되고 있다. 대규모언어모델(LLM)을 PC 내부에서 실행하는 온디바이스 AI 환경에서는 제한된 전력과 연산 자원을 활용해야 하는 만큼, 하드웨어 구성 전체를 고려한 최적화 역량이 사용자 경험을 좌우하는 핵심 요소로 떠오르고 있다.

AI 경량화 및 최적화 기술 기업 노타는 AI PC 환경에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 구현했다고 4일 밝혔다. 이기종 컴퓨팅은 CPU, GPU, NPU처럼 서로 다른 특성을 가진 프로세서가 각자 강점을 가진 연산을 나눠 처리하도록 구성하는 방식이다.

노타는 인텔 루나 레이크 기반 AI PC에서 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로 나눠 분석했다. 이후 입력 처리 연산은 GPU에서, 답변 생성 연산은 NPU에서 수행하도록 배치하는 ‘분리형 추론’ 방식을 적용했다. 단순히 여러 연산 장치를 동시에 사용하는 것이 아니라, AI 모델의 작업 흐름과 하드웨어 특성을 맞물리게 설계한 것이 특징이다.

성능 평가에서도 효율 개선이 확인됐다. 노타에 따르면 분리형 추론 적용 결과 단일 GPU 실행 방식과 비교해 토큰당 에너지 소비는 약 32% 줄었고, 생성 처리량은 약 12% 높아졌다. 단일 NPU 방식과 비교해서는 첫 응답 지연시간이 약 89% 단축됐다. 평가는 인텔 루나 레이크 기반 AI PC와 MoE LLM, 컨텍스트 윈도 크기 512 조건에서 진행됐다.

이번 결과는 같은 AI PC라도 연산 장치를 어떻게 배분하느냐에 따라 실제 응답 속도와 전력 효율이 달라질 수 있음을 보여준다. 특히 AI 에이전트용 PC처럼 로컬 환경에서 LLM을 반복적으로 실행해야 하는 경우, 모델 경량화뿐 아니라 런타임과 하드웨어 활용 방식까지 함께 최적화하는 접근이 중요해질 수 있다.

노타는 이번 성과가 AI PC 확산 흐름 속에서 자사의 온디바이스 AI 최적화 역량을 보여주는 사례라고 설명했다. 회사는 모델 경량화, 런타임 최적화, 하드웨어 최적화 기술을 결합해 AI PC 환경에서 LLM 실행 효율을 높여 나간다는 계획이다.

채명수 노타 대표는 “AI PC 시대에는 AI 모델을 기기 안에 올리는 것만으로는 충분하지 않다”며 “GPU, NPU 등 다양한 연산 장치를 모델 특성에 맞게 조합하는 최적화 역량이 실제 AI 경험을 좌우한다”고 말했다.

#AI PC #GPU #NPU #시스템 최적화

김한수 기자

hanskim@tech42.co.kr

기자의 다른 기사보기

생성형 AI, 어디를 근거로 삼나…SNS 인용 28.2%, 언론보다 높아

20일 함샤우트 글로벌 산하 AI 연구소와 AI 전문 자회사 딜라이트커뮤니케이션이 국내 30개 산업군을 대상으로 생성형 AI의 인용 출처를 분석한 결과, 정보 탐색형 질문에서는 블로그·유튜브·커뮤니티 등 소셜미디어(SNS)가 가장 큰 비중을 차지한 것으로 나타났다.

인사이트42 테크놀로지

‘제2의 딥시크’로 떠오른 Kimi K3…중국 AI, 이번엔 ‘규모와 개방’으로 미국 최상위권 추격

중국에서 또 다른 모델이 미국 AI 업계의 시선을 끌고 있다. 중국 AI 스타트업 문샷AI(Moonshot AI)가 자사 AI 서비스 ‘Kimi(키미)’를 통해 선보인 최신 플래그십 모델 ‘Kimi K3(키미 K3)’다. 외신에 따르면 지난 16일 등장한 K3가 중국과 미국의 최첨단 AI 성능 격차를 좁히고 있다. 2조8000억개 파라미터를 가진 K3의 등장과 중국 AI 기업들의 빠른 추격 역시 집중 조명됐다. 기술적 추격은 시장의 투자 논리에도 곧바로 연결됐다. 한국이 17일 제헌절 연휴로 증시가 쉬는 사이 글로벌 반도체주는 K3 공개와 맞물려 흔들렸다. 개방형 전략을 앞세운 중국 모델이 폐쇄형 최상위 모델과의 성능 격차를 빠르게 좁힐 경우, 막대한 AI 인프라 투자가 계속 필요한지에 대한 의구심이 다시 커질 수 있다는 우려가 부각됐다는 분석이다.

스타트업 테크놀로지

스탠다드에너지, 일본서 VIB ESS 첫 해외 실증…초급속 충전 전력 부담 낮춘다

스탠다드에너지가 일본 교토에서 바나듐 이온 배터리 기반 에너지저장장치의 첫 해외 실증에 들어갔다. 국내에서 전기차 초급속 충전기 연계 운용을 검증한 데 이어 일본 시장에서 현지 전력 환경과 제도에 맞는 사업성을 확인한다. 스탠다드에너지 김부기 대표가 일본 교토 MK택시 본사에서 개최된 VIB ESS 오프닝 행사에서 바나듐 이온 배터리를 설명하고 있다. (사진=스탠다드에너지

인사이트42 스타트업 테크놀로지

[현장] “데이터는 기업을 발견하고, 미래는 사람이 만든다”…마크앤컴퍼니 데모데이

지난 9일 서울 강남구 한국과학기술회관에서 열린 이번 무대에는 초기 투자 단계인 프리A(Pre-A)부터 시리즈 C에 이르는 마크앤컴퍼니 포트폴리오 기업 9개사가 올랐다. 발표 기업의 사업 분야는 기업 간 거래(B2B) 해외 영업과 예방 케어, 전기차 충전, 바이오매스 에너지, 항암·비만 치료제 개발, 로보틱스 등으로 다양했다. 행사장 한편에는 제품과 서비스를 시연하는 전시 공간이 마련됐고, 투자자가 관심 기업을 사전에 선택해 만나는 일대일 비즈니스 미팅도 진행됐다. 발표 시간에 다 설명하지 못한 기술과 사업모델, 후속 투자 계획을 놓고 투자자와 창업자 간 논의가 이어졌다.