올거나이즈, LLM 에이전트 역량 평가 플랫폼 ‘올인원 벤치마크’ 공개

LLM 올인원 솔루션 기업 올거나이즈는 LLM의 에이전트 역량을 평가하는 ‘All-in-One Benchmark(올인원 벤치마크)’를 공개한다고 3일 밝혔다.

LLM 올인원 솔루션 기업 올거나이즈는 LLM의 에이전트 역량을 평가하는 ‘All-in-One Benchmark(올인원 벤치마크)’를 공개한다고 3일 밝혔다.

올거나이즈 측은 “문제 해결을 위해 자율적으로 행동하는 에이전트의 중요성이 커짐에 따라 지난해 공개한 ‘금융 전문 LLM 리더보드’에서 한 발 나아가 새로운 LLM 평가 플랫폼을 제시한 것”이라고 설명했다.

올거나이즈에 따르면 올인원 벤치마크는 LLM의 에이전트 성능을 종합적으로 평가하는 플랫폼으로, 수요 기업은 이를 통해 에이전트 역할을 수행하기에 가장 적합한 LLM을 선택한다.

LLM이 에이전트 역할을 수행하기 위해서는 도메인 별 지식뿐 아니라 문제 해결을 위한 tool(툴)을 선택 및 활용할 수 있는 능력, 대화의 맥락 이해, 수집된 정보 활용 등 다양한 능력이 요구된다. 공개된 벤치마크를 활용해 LLM을 다각도로 분석하며, 평가 결과를 한눈에 볼 수 있도록 대시보드 형태로 제공한다.

사용자는 플랫폼 내에서 올거나이즈의 자체 소형언어모델(sLLM)을 비롯한 ‘ChatGPT(챗지피티)’, ‘EXAONE(엑사원)’, ‘Qwen(큐원)’, ‘DeepSeek(딥시크)’ 등 12개의 LLM의 평가 결과를 확인할 수 있다. 에이전트 성능을 종합적으로 평가하는 데는 3가지 벤치마크가 활용된다. 다양한 상황에서 스스로 외부 도구를 호출하는 ‘툴 콜링(tool calling)’ 능력을 평가하는 데는 ‘BFCL’를, 한국어 환경에서의 툴 콜링 능력 평가는 ‘FunctionChatBench’를 활용한다. ‘TauBench’라는 벤치마크를 통해서는 유통, 항공 등 실제 산업 현장의 다양한 상황에서 LLM의 문제 해결 능력을 평가한다.

새로운 LLM의 성능도 쉽게 확인한다. 새로 나온 LLM 이름을 입력하면 플랫폼이 모델의 API를 자동으로 구현하고, 평가를 진행하는 방식이다. LLM이 새로 개발될 때마다 각 벤치마크의 개별 코드를 실행해 동일 작업을 수차례 진행해야 하는 기존의 문제점을 해결했다. 대규모 데이터셋과 복잡한 벤치마크에서도 효율적인 평가가 가능해 평가 시간이 대폭 단축된다. 동일한 모델 평가 결과 기존 벤치마크의 경우 약 1시간 30분, 올거나이즈의 플랫폼은 약 20분이 소요된다.

올거나이즈는 올인원 벤치마크를 통해 최근 오픈소스로 공개된 딥시크의 ‘V3’ 에이전트 성능을 평가했으며, ‘GPT-4o mini’와 유사한 결과를 확인했다. V3는 공개 후 구글이 개발한 ‘GPQA-Diamond’, 수학 문제 해결 능력을 평가하는 ‘MATH 500’, 코드 생성 및 이해 평가 ‘Codeforces’ 등 다수의 벤치마크를 통해 성능이 평가됐지만 에이전트로서의 성능 평가는 올거나이즈가 최초다.

특히 올인원 벤치마크는 에이전트 역할뿐 아니라 일반적인 언어 이해, 지식수준, 명령 준수(Instruction Following) 등 LLM의 성능을 종합적으로 평가한다. 이 역시 ‘ArenaHard’, ‘Kobest’, ‘HAERAE’ 등 공개된 벤치마크가 활용된다. 플랫폼에서 선택할 수 있는 벤치마크는 총 12개로 모델 별 비교 분석이 용이하다. 결과는 100 이하, 소수점 4자리까지 숫자로 표시되고 벤치마크 별로 최고점이 상이하다.

이창수 올거나이즈 대표는 “기업이 생산성 향상을 위해 AI 모델을 도입하는 데 도움이 되는 LLM 평가 플랫폼을 지속적으로 업데이트해 나갈 예정”이라며 “나아가 에이전트 역할을 제대로 수행하는 LLM을 개발하기 위해 기존 LLM의 에이전트 성능을 확인하고 이를 향상시키기 위한 학습 방법을 심도 있게 연구하고 있다”고 전했다.

한편 올거나이즈는 ‘알리(Alli)’ 플랫폼을 통해 자체 개발한 소형언어모델 ‘알파 LLM 모델’을 제공하고 있다. 메타의 오픈소스 LLM ‘라마3’을 기반으로 한국어 이해도 역량을 강화했으며, 문서 요약 능력이 뛰어나 금융 및 공공 기관의 온프레미스 환경에서 활용도가 높다.

황정호 기자

jhh@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

“공간은 고정되지 않는다”… MRAG, 디지털 전환으로 프랜차이즈 모델 재정의

AI 기반 공간 구축·운영 플랫폼 기업 MRAG가 프랜차이즈 시장을 겨냥한 새로운 공간 운영 모델을 공개하며 사업 영역 확장에 나섰다. 기존 공간을 고정된 용도로 사용하는 방식에서 벗어나, 운영 시나리오에 따라 공간을 유연하게 전환하는 구조를 제시했다는 점에서 주목된다.

원화 스테이블코인, ‘설계 단계’ 넘어 실증으로… 카이아, 금융 인프라 청사진 제시

국내에서도 원화 기반 스테이블코인 논의가 개념적 단계에서 벗어나 구체적인 설계와 검증 단계로 이동하고 있다. 블록체인 인프라 기업 카이아는 3일 발행부터 정산, 유통까지 전 과정을 포함한 원화 스테이블코인 아키텍처를 공개하며 기술 표준 논의에 본격적으로 나섰다.

탄소가 ‘스펙’이 된 시대…제품탄소발자국, 공급망 경쟁력 가른다

유럽연합(EU)은 탄소국경조정제도(CBAM), 에코디자인 규정(ESPR), 디지털제품여권(DPP) 도입을 통해 제품 단위 탄소 정보를 요구하는 체계를 구축하고 있다. 이러한 추세 속에 제품탄소발자국이 산업의 또 다른 기준으로 자리 잡으며 기업들의 대응이 빨라지고 있다. (이미지=젠스파크로 생성)

NAB 무대 오르는 가우디오랩…콘텐츠 현지화 AI 플랫폼 ‘GSP’ 글로벌 출격

가우디오랩은 오는 19일부터 4일간 미국 라스베이거스에서 열리는 NAB Show 2026에 참가해 자사 콘텐츠 현지화 AI 플랫폼 ‘가우디오 스튜디오 프로(Gaudio Studio Pro, 이하 GSP)’를 글로벌 시장에 선보일 예정이다. 그동안 주요 글로벌 전시에서 기술력을 알려왔지만, 방송·미디어 산업의 핵심 행사로 꼽히는 NAB 무대에 오르는 것은 이번이 처음이다.