오픈AI o3, 외부 벤치마크서 성능 논란…초기 발표보다 낮은 점수 기록

OpenAI’s latest AI model, o3, has been shown to underperform compared to the company’s initial claims when evaluated by external organizations. While OpenAI announced that o3 could solve over 25% of problems on the FrontierMath benchmark, independent testing by Epoch AI found the model achieved an accuracy rate of about 10%. OpenAI’s initial announcement was based on results from internal testing environments with greater computational resources, whereas the version of o3 deployed for public use was confirmed to be a separate version optimized for speed and practicality. External organizations such as the ARC Prize Foundation also acknowledged that the released model differs from the one used in pre-release tests. Industry observers note that controversies over AI benchmarks are becoming increasingly common, and this case further demonstrates that benchmark results should not be taken at face value. OpenAI plans to release a more powerful o3-pro model in the near future.

오픈AI의 최신 AI 모델 o3가 외부 기관의 벤치마크에서 회사가 처음 내세운 성능에 미치지 못하는 것으로 나타났다. FrontierMath 벤치마크에서 오픈AI는 o3가 25% 이상의 문제를 푼다고 발표했으나, 실제로 Epoch AI의 독립 테스트에서는 약 10%의 정답률을 기록했다. 오픈AI는 초기 발표에서 내부 테스트 환경과 더 강력한 컴퓨팅 자원을 사용한 결과를 공개했으며, 실제 서비스에 적용된 o3는 속도와 실용성에 맞춰 최적화된 별도의 버전인 것으로 확인됐다. ARC Prize Foundation 등 외부 기관도 공개 모델과 테스트 모델이 다르다는 점을 인정했다. 업계에서는 AI 벤치마크 논란이 점점 빈번해지고 있으며, 이번 사례 역시 벤치마크 결과를 액면 그대로 받아들이기 어렵다는 점을 보여준다는 평가가 나온다. 오픈AI는 곧 더 강력한 o3-pro 모델을 출시할 계획이다.

앨리스

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

삼성, 멀미 완화 앱 '히어라피' 출시...이어폰으로 60초 들으면 2시간 효과

삼성이 이어폰으로 멀미를 완화하는 무료 앱 '히어라피'를 출시했다. 100Hz 저음 사인파를 60초간 들으면 최대 2시간 멀미 증상이 억제되며, 갤럭시 버즈4 프로 외 타사 이어폰에서도 사용 가능하다.

“남들 다 포기할 때 거꾸로 간다”… 토요타, 볼보·다임러와 ‘수소 동맹’ 전격 결성

세계 최대 자동차 기업 토요타가 전기차로 쏠린 업계 흐름에 맞서 수소 연료전지 시장에 승부수를 던졌다.

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

이란 혁명수비대(IRGC)가 애플·구글·마이크로소프트 등 미국 기업 18곳을 중동에서 타격하겠다고 경고했다. 4월 1일 오후 8시(테헤란 기준)를 데드라인으로 제시하며 직원 대피를 촉구했다.

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

메타가 레이밴(Ray-Ban)의 모회사 에실로룩소티카와 협력해 인공지능(AI) 기능을 대폭 강화한 차세대 스마트 안경 ‘옵틱스(Optics)’ 라인업을 선보였다.