오픈AI o3, 외부 벤치마크서 성능 논란…초기 발표보다 낮은 점수 기록

OpenAI’s latest AI model, o3, has been shown to underperform compared to the company’s initial claims when evaluated by external organizations. While OpenAI announced that o3 could solve over 25% of problems on the FrontierMath benchmark, independent testing by Epoch AI found the model achieved an accuracy rate of about 10%. OpenAI’s initial announcement was based on results from internal testing environments with greater computational resources, whereas the version of o3 deployed for public use was confirmed to be a separate version optimized for speed and practicality. External organizations such as the ARC Prize Foundation also acknowledged that the released model differs from the one used in pre-release tests. Industry observers note that controversies over AI benchmarks are becoming increasingly common, and this case further demonstrates that benchmark results should not be taken at face value. OpenAI plans to release a more powerful o3-pro model in the near future.

오픈AI의 최신 AI 모델 o3가 외부 기관의 벤치마크에서 회사가 처음 내세운 성능에 미치지 못하는 것으로 나타났다. FrontierMath 벤치마크에서 오픈AI는 o3가 25% 이상의 문제를 푼다고 발표했으나, 실제로 Epoch AI의 독립 테스트에서는 약 10%의 정답률을 기록했다. 오픈AI는 초기 발표에서 내부 테스트 환경과 더 강력한 컴퓨팅 자원을 사용한 결과를 공개했으며, 실제 서비스에 적용된 o3는 속도와 실용성에 맞춰 최적화된 별도의 버전인 것으로 확인됐다. ARC Prize Foundation 등 외부 기관도 공개 모델과 테스트 모델이 다르다는 점을 인정했다. 업계에서는 AI 벤치마크 논란이 점점 빈번해지고 있으며, 이번 사례 역시 벤치마크 결과를 액면 그대로 받아들이기 어렵다는 점을 보여준다는 평가가 나온다. 오픈AI는 곧 더 강력한 o3-pro 모델을 출시할 계획이다.

앨리스

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

럭셔리 SUV라더니 안전벨트가 툭? 루시드, 신차 ‘그래비티’ 전량 리콜

미국 신생 전기차 제조사 루시드 모터스(Lucid Motors)가 야심 차게 내놓은 대형 SUV ‘그래비티(Gravity)’가 안전벨트 결함으로 체면을 구겼다.

애플, iOS 18에 이례적 보안 패치…다크소드 해킹 툴 방어 나섰다

애플이 아이폰 해킹 툴킷 '다크소드' 대응을 위해 iOS 18 전용 보안 패치를 이례적으로 배포한다. 감염된 웹사이트 방문만으로 해킹되는 원클릭 공격으로, 깃허브 유출 후 위협이 급확산됐다. iOS 18 사용자의 약 25%가 보호 대상이다.

“인류 최대의 상장”… 스페이스X, 100조 원 규모 IPO 비공개 신청

일론 머스크가 이끄는 우주 항공 기업 스페이스X가 마침내 증권 시장 상장을 위한 첫발을 뗐다. 1일(현지시간) 블룸버그 통신 등 외신에 따르면 스페이스X는 최근 미국 증권거래위원회(SEC)에 기업공개(IPO)를 위한 등록 서류 초안을 비공개로 제출했다.

“4천만 원대 전기 스포티지 떴다”… 기아 EV3, 뉴욕 오토쇼서 美 시장 전격 데뷔

기아가 뉴욕 국제 오토쇼에서 소형 전기 SUV인 ‘2027년형 EV3’를 공개하며 북미 시장 공략을 가시화했다. 해외 시장 출시 이후 현지 소비자들의 기대를 모았던 EV3는 올해 말 미국 시장에 공식 상륙할 예정이다.