OpenAI has released a new benchmark called "GDPval" claiming that its GPT-5 model performs at human-level across a wide range of professional jobs. The test evaluates AI model performance in 44 occupations across nine industries that contribute most to America's GDP, including healthcare, finance, manufacturing, and government. GPT-5-high, a souped-up version of GPT-5 with extra computational power, was ranked as better than or on par with industry experts 40.6% of the time. Interestingly, competitor Anthropic's Claude Opus 4.1 model scored 49%, though OpenAI suggests this high score was due to its ability to create pleasing graphics rather than pure performance. However, OpenAI acknowledges that the current test covers only a very limited portion of what people actually do in their real jobs, so AI won't immediately replace humans. Compared to GPT-4o's 13.7% score from about 15 months ago, GPT-5 shows nearly triple the performance improvement. OpenAI's chief economist Dr. Aaron Chatterji explained that as models get better at these tasks, people can "offload some of their work and do potentially higher value things."
오픈AI가 자사의 GPT-5 모델이 다양한 직업 분야에서 사람 수준의 성능을 보인다고 주장하는 새로운 벤치마크 'GDPval'을 공개했다. 이 테스트는 의료, 금융, 제조업, 정부 등 미국 GDP에 가장 많이 기여하는 9개 산업 분야의 44개 직업에서 AI 모델의 성능을 평가한다. GPT-5의 고성능 버전인 'GPT-5-high'는 업계 전문가와 비교해서 40.6%의 경우에 더 좋거나 비슷한 수준의 성과를 보였다고 발표했다. 흥미롭게도 경쟁사 앤스로픽의 클로드 오푸스 4.1 모델은 49%의 승률을 기록했는데, 오픈AI는 이것이 성능보다는 보기 좋은 그래픽을 만드는 능력 때문일 것이라고 설명했다. 다만 현재 테스트는 실제 업무에서 하는 일 중 매우 제한적인 부분만 다루고 있어서 AI가 당장 사람을 대체할 것은 아니라고 오픈AI도 인정했다. 약 15개월 전에 나온 GPT-4o 모델이 13.7%의 성과를 보인 것과 비교하면 GPT-5는 거의 3배 가까운 성능 향상을 이뤘다. 오픈AI 수석 이코노미스트 아론 채터지 박사는 "모델이 이런 업무들을 잘하게 되면서 사람들이 더 가치 있는 일에 시간을 쓸 수 있게 됐다"고 설명했다.
