반복 학습만으로 거대 모델 넘어선 삼성의 미니 인공지능

  • 반복 학습으로 스스로 오류 수정…훈련비 50만원 불과
  • 제미나이 2.5 프로보다 8%p 높은 45% 정확도
  • 스마트폰에서도 돌아갈 만큼 가벼워…온디바이스 AI 적용 기대

삼성종합기술연구원 캐나다 몬트리올 랩 소속 알렉시아 조리쾨르 마르티노 선임연구원 팀이 10월 9일 논문 공개 플랫폼 arXiv에 발표한 연구가 AI 업계의 주목을 받고 있는데, 이 연구는 매개변수 규모를 키우는 대신 학습 방식을 혁신해 성능을 끌어올린 사례라는 점에서 의미가 크다.

연구팀이 선보인 'TRM(Tiny Recursive Model)'이라는 인공지능은 매개변수가 겨우 700만 개 수준이지만, 이는 구글 제미나이 2.5 프로의 약 1조 개나 오픈AI GPT-4의 1.7조 개와 비교하면 만 분의 일에도 못 미치는 극소 규모다. 그런데 흥미롭게도 이 작은 모델이 논리 추론 평가에서 훨씬 거대한 모델들보다 우수한 결과를 냈다는 게 핵심이다.

삼성이 개발한 TRM 모델 개요(출처=arxiv)

TRM의 작동 원리는 인간이 복잡한 문제를 풀 때 여러 번 검산하고 수정하는 과정과 유사한데, 한 번에 최종 답을 도출하는 기존 방식과 달리 초기 답안을 만든 뒤 그것을 반복적으로 재검토하고 개선하는 루프를 최대 16회까지 수행한다. 마치 스도쿠를 풀면서 틀린 부분을 발견하고 고치고 다시 전체를 살펴보는 식으로, 스스로 오류를 찾아 바로잡아가며 정확도를 높여나가는 셈이다. 마르티노 연구원은 "모델의 역량은 파라미터 수가 아니라 사고를 얼마나 반복하며 깊이 있게 다듬느냐에 달려 있다"고 설명하면서, 거대 모델이 단 한 번의 강력한 연산으로 승부를 본다면 TRM은 여러 차례 작은 연산을 되풀이하며 답을 정교하게 만든다고 덧붙였다.

실제 성능 평가 결과를 보면 AI 추론 역량을 측정하는 'ARC-AGI-1' 벤치마크에서 TRM은 45%의 정답률을 기록했는데, 이는 구글 제미나이 2.5 프로의 37%와 중국 딥시크 R1의 15.8%를 모두 상회하는 수치다. 한층 까다로운 ARC-AGI-2 버전에서는 TRM이 8%를 받았고 제미나이는 4.9%, 딥시크는 1.3%에 그쳐 격차가 더욱 벌어졌으며, TRM이 제미나이보다 약 1.6배 높은 점수를 낸 셈이다. ARC-AGI는 색상 패턴 매칭이나 도형 규칙 파악 같은 과제로 이루어져 있어 사람에게는 직관적이지만 AI에게는 극도로 어렵기로 정평이 나 있고, 구글이나 오픈AI 같은 대형 기업들도 이 테스트 점수를 올리는 데 상당히 애를 먹고 있다.

현재 ARC-AGI-1 리더보드

또한 TRM은 난이도가 높은 스도쿠 문제에서 87%의 정답률을 보였는데 기존 최고 기록이 55%였던 것과 비교하면 획기적인 수준이며, 복잡한 미로 찾기 과제에서도 85.3%의 정확도를 달성했다. 이처럼 작으면서도 뛰어난 성능을 내는 비결은 구조의 극단적인 단순함에 있는데, 대부분의 거대 AI는 수백에서 수천 개의 레이어를 겹겹이 쌓아 올린 복잡한 아키텍처를 갖추고 있지만 TRM은 단 2개 레이어만 사용한다. 대신 이 2개 레이어를 계속해서 재활용하는 방식인데, 한 번 계산을 끝내고 그 결과를 다시 동일한 레이어에 입력해서 재계산하고, 이를 반복하는 구조다. 건물을 높이 쌓는 대신 같은 공간을 여러 번 순환하며 활용하는 것과 비슷한 개념이라고 볼 수 있다.

이런 접근법은 오픈AI와 구글이 최근 실험 중인 '테스트타임 컴퓨팅'이나 '사고사슬' 기법보다 더욱 효율적이라는 평가를 받고 있으며, 비용 측면에서도 혁신적이다. TRM 훈련에는 엔비디아 H100 GPU 4개가 사용됐고 이틀 만에 완료됐으며 비용은 500달러(약 67만원) 미만이었는데, GPT-4는 훈련에 1억 달러(약 1340억원), 구글 제미나이 울트라에는 1억9100만 달러(약 2560억원)가 투입됐으니 TRM은 이들의 20만 분의 1 비용으로 만들어진 셈이다.

무엇보다 700만 파라미터라는 규모는 스마트폰에도 여유 있게 탑재 가능한 수준이어서, 마르티노 연구원은 "스마트워치에서도 구동될 만큼 가볍다"고 언급했다. 이는 클라우드 서버 연결 없이 기기 자체에서 AI가 작동하는 '온디바이스 AI' 시대를 앞당길 수 있다는 의미인데, 삼성 스마트폰이나 가전제품에 내장되어 인터넷 없이도 신속하게 복잡한 계산을 처리할 가능성이 높아졌다.

삼성은 2023년 자체 AI 모델 '가우스'를 발표한 이후 2024년 '가우스2'를 공개하며 AI 역량을 입증해왔으나, 올해 삼성개발자콘퍼런스(SDC) 2025가 취소되면서 삼성의 AI 연구가 중단된 것 아니냐는 우려가 제기됐다. 실제로 삼성은 올해 오픈AI CEO 샘 올트먼과 여러 차례 미팅을 갖고 사내에 GPT 도입을 추진했고, 일각에서는 가우스 개발이 중단됐다는 얘기까지 나왔다. 하지만 이번 TRM 공개로 그러한 우려는 불식됐는데, 삼성이 공개적으로 AI 모델을 출시하지는 않지만 내부적으로는 꾸준히 연구를 지속하고 있다는 사실을 증명했다.

TRM의 소스코드는 MIT 라이선스로 깃허브에 공개돼 있어 누구나 무료로 다운받아 수정하고 상업적으로도 활용할 수 있으며, 마르티노 연구원은 "대기업이 수백억원을 들여 만든 거대 모델에만 의존해야 한다는 생각은 함정"이라며 "작은 모델도 설계만 잘하면 충분히 강력할 수 있다"고 강조했다. AI 업계는 그동안 "크면 클수록 좋다"는 믿음 아래 모델 크기 키우기 경쟁에 몰두해 왔지만, TRM은 "적은 게 더 많다(Less is More)"는 논문 제목처럼 효율적인 설계가 무작정 덩치 키우기보다 중요할 수 있다는 점을 입증했다. 업계 전문가들은 TRM이 자율주행, 로봇, 의료기기 등 온디바이스 AI가 필요한 분야에서 활발히 활용될 것으로 전망하며, 특히 개인정보 보호가 중요하거나 실시간 처리가 필요한 영역에서 빛을 발할 것으로 보인다.

김광우 기자

kimnoba@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

"문서 지옥이 싫었다"…비전공 공무원 혼자서 쓴 공직사회 AI 혁신

광진구청 류승인 주무관이 개발한 HWP 파서 'kordoc'과 법령 검색 MCP 서버 'korean-law-mcp'가 공직사회 AI 혁신 사례로 화제다. 비전공자 공무원의 바텀업 혁신, 두 도구 모두 오픈소스 무료 공개.

채용 공고부터 추천까지 한 번에…AI로 묶은 ‘통합 채용 허브’ 등장

잡코리아가 AI 기반 통합 채용 솔루션 ‘하이어링 센터’를 공개했다. 채용 공고 등록부터 지원자 관리, 커뮤니케이션, 운영 관리까지 전 과정을 하나의 환경에서 처리할 수 있도록 설계된 것이 핵심이다.

‘링크의 시대’에서 ‘답변의 시대’로…구글 ‘서치 라이브’가 바꾸는 검색의 질서

서치 라이브는 검색 결과를 읽는 경험보다, 검색과 ‘대화하는’ 경험에 가깝다. 사용자는 구글 앱 안에서 음성으로 질문을 이어가고, 필요하면 카메라로 사물을 비추며 실시간 도움을 받을 수 있다. 이는 검색이 단발성 쿼리에서 벗어나 문맥을 유지하는 세션형 인터페이스로 이동하고 있음을 보여준다.

‘AI’를 향한 아마존의 거대한 ‘20년 승부수’

[AI요약] 20년전 생소한 개념의 클라우드 컴퓨팅 서비스인 AWS를 출시한 후, 해당 서비스를 인터넷 기반 도구에 의존하는 거의 모든 기업에게 필수불가결한...