OpenAI’s latest AI model, o3, has been shown to underperform compared to the company’s initial claims when evaluated by external organizations. While OpenAI announced that o3 could solve over 25% of problems on the FrontierMath benchmark, independent testing by Epoch AI found the model achieved an accuracy rate of about 10%. OpenAI’s initial announcement was based on results from internal testing environments with greater computational resources, whereas the version of o3 deployed for public use was confirmed to be a separate version optimized for speed and practicality. External organizations such as the ARC Prize Foundation also acknowledged that the released model differs from the one used in pre-release tests. Industry observers note that controversies over AI benchmarks are becoming increasingly common, and this case further demonstrates that benchmark results should not be taken at face value. OpenAI plans to release a more powerful o3-pro model in the near future.
오픈AI의 최신 AI 모델 o3가 외부 기관의 벤치마크에서 회사가 처음 내세운 성능에 미치지 못하는 것으로 나타났다. FrontierMath 벤치마크에서 오픈AI는 o3가 25% 이상의 문제를 푼다고 발표했으나, 실제로 Epoch AI의 독립 테스트에서는 약 10%의 정답률을 기록했다. 오픈AI는 초기 발표에서 내부 테스트 환경과 더 강력한 컴퓨팅 자원을 사용한 결과를 공개했으며, 실제 서비스에 적용된 o3는 속도와 실용성에 맞춰 최적화된 별도의 버전인 것으로 확인됐다. ARC Prize Foundation 등 외부 기관도 공개 모델과 테스트 모델이 다르다는 점을 인정했다. 업계에서는 AI 벤치마크 논란이 점점 빈번해지고 있으며, 이번 사례 역시 벤치마크 결과를 액면 그대로 받아들이기 어렵다는 점을 보여준다는 평가가 나온다. 오픈AI는 곧 더 강력한 o3-pro 모델을 출시할 계획이다.
