오픈AI "GPT-5, 다양한 직업에서 사람 수준 성능"...새 벤치마크 공개

OpenAI has released a new benchmark called "GDPval" claiming that its GPT-5 model performs at human-level across a wide range of professional jobs. The test evaluates AI model performance in 44 occupations across nine industries that contribute most to America's GDP, including healthcare, finance, manufacturing, and government. GPT-5-high, a souped-up version of GPT-5 with extra computational power, was ranked as better than or on par with industry experts 40.6% of the time. Interestingly, competitor Anthropic's Claude Opus 4.1 model scored 49%, though OpenAI suggests this high score was due to its ability to create pleasing graphics rather than pure performance. However, OpenAI acknowledges that the current test covers only a very limited portion of what people actually do in their real jobs, so AI won't immediately replace humans. Compared to GPT-4o's 13.7% score from about 15 months ago, GPT-5 shows nearly triple the performance improvement. OpenAI's chief economist Dr. Aaron Chatterji explained that as models get better at these tasks, people can "offload some of their work and do potentially higher value things."

오픈AI가 자사의 GPT-5 모델이 다양한 직업 분야에서 사람 수준의 성능을 보인다고 주장하는 새로운 벤치마크 'GDPval'을 공개했다. 이 테스트는 의료, 금융, 제조업, 정부 등 미국 GDP에 가장 많이 기여하는 9개 산업 분야의 44개 직업에서 AI 모델의 성능을 평가한다. GPT-5의 고성능 버전인 'GPT-5-high'는 업계 전문가와 비교해서 40.6%의 경우에 더 좋거나 비슷한 수준의 성과를 보였다고 발표했다. 흥미롭게도 경쟁사 앤스로픽의 클로드 오푸스 4.1 모델은 49%의 승률을 기록했는데, 오픈AI는 이것이 성능보다는 보기 좋은 그래픽을 만드는 능력 때문일 것이라고 설명했다. 다만 현재 테스트는 실제 업무에서 하는 일 중 매우 제한적인 부분만 다루고 있어서 AI가 당장 사람을 대체할 것은 아니라고 오픈AI도 인정했다. 약 15개월 전에 나온 GPT-4o 모델이 13.7%의 성과를 보인 것과 비교하면 GPT-5는 거의 3배 가까운 성능 향상을 이뤘다. 오픈AI 수석 이코노미스트 아론 채터지 박사는 "모델이 이런 업무들을 잘하게 되면서 사람들이 더 가치 있는 일에 시간을 쓸 수 있게 됐다"고 설명했다.

앨리스

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

삼성, 멀미 완화 앱 '히어라피' 출시...이어폰으로 60초 들으면 2시간 효과

삼성이 이어폰으로 멀미를 완화하는 무료 앱 '히어라피'를 출시했다. 100Hz 저음 사인파를 60초간 들으면 최대 2시간 멀미 증상이 억제되며, 갤럭시 버즈4 프로 외 타사 이어폰에서도 사용 가능하다.

“남들 다 포기할 때 거꾸로 간다”… 토요타, 볼보·다임러와 ‘수소 동맹’ 전격 결성

세계 최대 자동차 기업 토요타가 전기차로 쏠린 업계 흐름에 맞서 수소 연료전지 시장에 승부수를 던졌다.

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

이란 혁명수비대(IRGC)가 애플·구글·마이크로소프트 등 미국 기업 18곳을 중동에서 타격하겠다고 경고했다. 4월 1일 오후 8시(테헤란 기준)를 데드라인으로 제시하며 직원 대피를 촉구했다.

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

메타가 레이밴(Ray-Ban)의 모회사 에실로룩소티카와 협력해 인공지능(AI) 기능을 대폭 강화한 차세대 스마트 안경 ‘옵틱스(Optics)’ 라인업을 선보였다.