Controversy over AI model performance comparisons has now spread to the Pokémon game. Recently, a post on X (formerly Twitter) went viral, claiming that Google’s Gemini model advanced further in the original Pokémon game than Anthropic’s Claude model. However, it was revealed that Gemini benefited from additional support, such as a custom minimap, giving it an advantage during gameplay. This has led to criticism that benchmark results can vary significantly depending on how they are implemented. In fact, Anthropic published two different SWE-bench Verified benchmark scores for its Claude 3.7 Sonnet model: one for the base version and another for a version using a custom scaffold, with a notable difference between the two. Similarly, Meta fine-tuned its Llama 4 Maverick model for a specific benchmark, resulting in different outcomes compared to the standard version. Experts point out that, since AI benchmarks—including Pokémon—are not perfect measures, custom implementations can distort results. As a result, comparing AI model performance is expected to become even more complicated in the future.
AI 모델 성능 비교 논란이 포켓몬스터 게임으로까지 번지고 있다. 최근 구글의 Gemini 모델이 앤트로픽의 Claude 모델보다 포켓몬스터 원작 게임에서 더 멀리 진출했다는 소식이 X(옛 트위터)에서 화제가 됐다. 하지만 Gemini는 맞춤형 미니맵 등 추가 지원을 받아 유리한 조건에서 게임을 진행한 것으로 드러났다. 이처럼 벤치마크 구현 방식에 따라 결과가 크게 달라질 수 있다는 지적이 나온다. 실제로 앤트로픽은 Claude 3.7 Sonnet 모델의 SWE-bench Verified 벤치마크 점수를 기본 버전과 커스텀 스캐폴드 적용 버전으로 각각 공개했으며, 점수 차이가 크게 나타났다. 메타 역시 Llama 4 Maverick 모델을 특정 벤치마크에 맞춰 파인튜닝해 기본 버전과 다른 결과를 보였다. 전문가들은 포켓몬스터를 포함한 AI 벤치마크가 완벽한 척도가 아닌 만큼, 커스텀 구현이 결과를 왜곡할 수 있다고 지적한다. 앞으로도 AI 모델 간 성능 비교는 더욱 복잡해질 전망이다.
