Meta has been accused of exaggerating the performance of its latest AI model, Llama 4. The company recently introduced two versions of Llama 4: a smaller model called Scout and a mid-sized model named Maverick. Meta claimed that Maverick outperformed GPT-4o and Gemini 2.0 Flash in key benchmarks. Maverick quickly climbed to the second spot on the AI benchmark site LMArena. Meta announced that Maverick achieved an ELO score of 1417, surpassing OpenAI's GPT-4o. However, AI researchers analyzing Meta’s official documentation have raised concerns about its benchmarking methods. There are allegations that Meta manipulated evaluation criteria to make its model appear superior to its competitors.
메타가 최신 AI 모델 ‘라마 4’의 성능을 과장했다는 의혹이 제기됐다. 메타는 최근 소형 모델 ‘스카우트’와 중형 모델 ‘매버릭’을 포함한 두 가지 라마 4 모델을 공개했다. 특히 매버릭은 주요 벤치마크에서 GPT-4o와 Gemini 2.0 Flash보다 뛰어난 성능을 보인다고 주장했다. 매버릭은 AI 벤치마크 사이트 LMArena에서 빠르게 2위에 올랐다. 메타는 매버릭이 1417점의 ELO 점수를 기록하며 OpenAI의 GPT-4o를 앞섰다고 발표했다. 하지만 AI 연구자들이 메타의 공식 문서를 분석한 결과, 벤치마크 방식에 문제가 있다는 의혹이 제기됐다. 메타가 AI 성능 평가 기준을 조작해 자사 모델이 경쟁 모델보다 우수한 것처럼 보이게 했다는 지적이 나오고 있다.
