노타, 양자화 기술로 업스테이지 ‘솔라 100B’ 경량화 성과 공개…메모리 72% 줄이고 성능 손실은 최소화

AI 경량화·최적화 기술 기업 노타는 업스테이지의 대형언어모델(LLM) ‘솔라 오픈 100B’에 자사 차세대 양자화 기술을 적용해 메모리 사용량을 대폭 낮추는 데 성공했다고 5일 밝혔다.

AI 경량화·최적화 기술 기업 노타는 업스테이지의 대형언어모델(LLM) ‘솔라 오픈 100B’에 자사 차세대 양자화 기술을 적용해 메모리 사용량을 대폭 낮추는 데 성공했다고 5일 밝혔다. 초대형 모델 운용의 핵심 부담인 메모리와 추론 비용을 줄이면서도 성능 저하는 최소화했다는 점에서, 온디바이스 AI와 피지컬 AI 시장에서의 활용 가능성을 한층 넓혔다는 평가가 나온다.

이번 성과의 핵심은 MoE(Mixture of Experts) 구조에 맞춘 독자 양자화 기술이다. 최근 고성능 LLM에서 널리 쓰이는 MoE 구조는 여러 전문가 모델이 입력에 따라 선택적으로 작동하는 방식이지만, 기존 양자화 기법으로는 각 전문가 모델의 특성을 충분히 반영하기 어려웠다. 모델 전체를 일괄적으로 압축하는 방식이 주류였던 탓에, 메모리를 줄이는 대신 성능 훼손이 커지는 한계가 있었다.

노타는 이런 문제를 해결하기 위해 전문가 모델별 특성을 고려한 ‘노타 MoE 양자화’ 방법론을 개발했다. 모든 연산을 같은 수준으로 줄이는 대신, 정밀도가 필요한 부분은 유지하고 상대적으로 영향이 적은 부분만 압축하는 방식이다. 회사는 이를 통해 MoE 모델 추론 과정에서 발생하는 왜곡을 줄이고, 경량화와 성능 유지 사이의 균형을 끌어올렸다고 설명했다.

실제 적용 결과도 수치로 제시됐다. 노타 기술이 적용된 솔라 100B는 기존 191.2GB 수준이던 메모리 사용량을 51.9GB까지 낮췄다. 약 72.8% 줄인 셈이다. 동시에 성능 지표인 퍼플렉시티(PPL)는 6.81로, 원본 모델 6.06에 근접한 수준을 유지했다. 단순 압축만으로는 성능 저하가 크게 나타나던 기존 범용 양자화 기법과 비교하면, 메모리 효율과 성능 보존을 함께 잡은 결과에 가깝다.

이번 기술은 과학기술정보통신부가 추진하는 ‘독자 AI 파운데이션 모델 프로젝트’의 일환으로 진행됐다. 업스테이지의 솔라 오픈 100B에 노타의 경량화 기술을 입히는 방식으로, 한국형 대형 AI 모델의 실사용 가능성을 높이는 데 초점이 맞춰졌다. 회사는 관련 기술에 대해 특허도 출원했다.

의미는 분명하다. 초대형 LLM은 높은 성능에도 불구하고 메모리 요구량과 GPU 인프라 비용이 커 실제 산업 현장 적용에 제약이 많았다. 특히 로봇, 자동차, 모빌리티처럼 디바이스 안에서 직접 AI를 구동해야 하는 피지컬 AI 환경에서는 더 큰 장벽으로 작용했다. 노타는 이번 기술로 이 장벽을 낮춰, 대규모 언어모델을 보다 적은 인프라에서 빠르게 운용할 수 있는 기반을 마련했다고 보고 있다.

기업 입장에서도 효과는 직접적이다. 같은 하드웨어 자원으로 더 많은 사용자를 처리할 수 있고, 기존에는 탑재가 쉽지 않았던 대용량 모델을 디바이스 환경에 구현할 가능성도 커진다. 결국 추론 비용 절감과 서비스 응답 속도 개선, 운영 효율 향상으로 이어질 수 있다는 얘기다.

채명수 노타 대표는 “이번 성과는 한국형 AI 파운데이션 모델인 솔라 100B에 노타의 양자화 기술을 적용해 메모리를 크게 줄이면서도 성능을 유지했다는 점에서 의미가 크다”며 “디바이스에 대규모 모델을 구현해야 하는 수요가 확대될수록, 노타의 경량화·최적화 기술이 고성능 AI 실현의 핵심 역할을 하게 될 것”이라고 말했다.

김한수 기자

hanskim@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

PFCT, 중금리 대출 부실 예측 AI 특허 등록…에어팩 기술 독창성 인정

AI 기술금융사 피에프씨테크놀로지스(PFCT)가 금융 특화 버티컬 AI 인프라 ‘에어팩(AIRPACK)’에 적용한 중금리 대출 부실 리스크 예측 기술로 특허를 등록했다. PFCT는 이번 특허 등록을 통해 에어팩의 핵심 기술 구현 방식과 독창성을 추가로 인정받았다고 30일 밝혔다.

[현장] 전력·냉각·보안부터 로봇·바이오까지… KAIST 딥테크 스타트업이 제시한 AI 시대 생존 전략

KAIST 창업원이 주최·주관한 ‘KAIST Startup Scaleup Summit 2026’이 지난 18일 서울 코엑스 3층 컨퍼런스홀 E5·E6에서 열렸다. 넥스트라이즈 2026 서울(NextRise 2026, Seoul) 파트너 행사로 마련된 이 행사는 KAIST 스타트업 성장 공동체를 기반으로 투자사와 창업자, 기술 인재가 만나는 스케일업의 장을 표방했다.

삼쩜삼, 전사 AI 전환 속도…개발·비개발 경계 낮춘 ‘AI 위크’ 열어

자비스앤빌런즈, AI 위크 2026 개최…10개 세션서 실무 적용 사례 공유 사내 데이터 분석 도구 ‘로키’ 주목…비개발자도 자연어로 데이터 활용 AI...

GPT-5.6은 제한 공개, 제미나이는 사용 제한…AI 경쟁은 ‘접근권 전쟁’으로 바뀌었다

생성형 AI 주도권 경쟁의 상황이 급변하고 있다. 최근까지 시장의 관심은 누가 더 강력한 모델을 먼저 공개하느냐에 집중됐다. 그러나 최근 오픈AI(OpenAI), 앤트로픽(Anthropic), 구글(Google), 메타(Meta)를 둘러싼 변화는 양상이 다르다. 이제 중요한 것은 모델 성능만이 아니다. 누가 최상위 모델에 접근할 수 있는지, 어느 기업이 충분한 컴퓨트(compute)를 배정받을 수 있는지, 또 어떤 조직이 정부와 플랫폼 기업이 요구하는 신뢰 기준을 충족할 수 있는지가 AI 경쟁의 핵심 변수로 떠오르고 있다.