메타, AI 벤치마크 조작 의혹

Meta has been accused of exaggerating the performance of its latest AI model, Llama 4. The company recently introduced two versions of Llama 4: a smaller model called Scout and a mid-sized model named Maverick. Meta claimed that Maverick outperformed GPT-4o and Gemini 2.0 Flash in key benchmarks. Maverick quickly climbed to the second spot on the AI benchmark site LMArena. Meta announced that Maverick achieved an ELO score of 1417, surpassing OpenAI's GPT-4o. However, AI researchers analyzing Meta’s official documentation have raised concerns about its benchmarking methods. There are allegations that Meta manipulated evaluation criteria to make its model appear superior to its competitors.

메타가 최신 AI 모델 ‘라마 4’의 성능을 과장했다는 의혹이 제기됐다. 메타는 최근 소형 모델 ‘스카우트’와 중형 모델 ‘매버릭’을 포함한 두 가지 라마 4 모델을 공개했다. 특히 매버릭은 주요 벤치마크에서 GPT-4o와 Gemini 2.0 Flash보다 뛰어난 성능을 보인다고 주장했다. 매버릭은 AI 벤치마크 사이트 LMArena에서 빠르게 2위에 올랐다. 메타는 매버릭이 1417점의 ELO 점수를 기록하며 OpenAI의 GPT-4o를 앞섰다고 발표했다. 하지만 AI 연구자들이 메타의 공식 문서를 분석한 결과, 벤치마크 방식에 문제가 있다는 의혹이 제기됐다. 메타가 AI 성능 평가 기준을 조작해 자사 모델이 경쟁 모델보다 우수한 것처럼 보이게 했다는 지적이 나오고 있다.

앨리스

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

삼성, 멀미 완화 앱 '히어라피' 출시...이어폰으로 60초 들으면 2시간 효과

삼성이 이어폰으로 멀미를 완화하는 무료 앱 '히어라피'를 출시했다. 100Hz 저음 사인파를 60초간 들으면 최대 2시간 멀미 증상이 억제되며, 갤럭시 버즈4 프로 외 타사 이어폰에서도 사용 가능하다.

“남들 다 포기할 때 거꾸로 간다”… 토요타, 볼보·다임러와 ‘수소 동맹’ 전격 결성

세계 최대 자동차 기업 토요타가 전기차로 쏠린 업계 흐름에 맞서 수소 연료전지 시장에 승부수를 던졌다.

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

이란 혁명수비대(IRGC)가 애플·구글·마이크로소프트 등 미국 기업 18곳을 중동에서 타격하겠다고 경고했다. 4월 1일 오후 8시(테헤란 기준)를 데드라인으로 제시하며 직원 대피를 촉구했다.

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

메타가 레이밴(Ray-Ban)의 모회사 에실로룩소티카와 협력해 인공지능(AI) 기능을 대폭 강화한 차세대 스마트 안경 ‘옵틱스(Optics)’ 라인업을 선보였다.