세계 최고 수학자 30명이 오픈AI의 'o4-mini'와 벌인 비밀 대결에서 AI가 10분 만에 수론 난제를 해결해 충격을 안겼다고 사이언티픽 아메리칸이 보도했다.
수학자들은 AI가 풀지 못할 것으로 예상한 박사급 난제들을 출제했지만, o4-mini는 10분 만에 수론 분야의 미해결 문제를 해결해 참가자들을 경악시켰다. 버지니아대학 수학과 켄 오노 교수는 "동료들이 이 모델이 수학적 천재 수준에 접근하고 있다고 말한다"며 충격을 표현했다. AI는 먼저 관련 문헌을 2분 만에 학습한 후 간단한 '토이' 버전 문제를 풀어보며 학습하고, 최종적으로 복잡한 원문제를 정확히 해결하는 과정을 실시간으로 보여줬다. 비영리 AI 벤치마크 기관 에포크 AI(Epoch AI)가 개발한 '프론티어매스(FrontierMath)' 테스트에서 o4-mini는 20%의 문제를 해결했으며, 이는 기존 대형언어모델의 2% 대비 10배 향상된 성과다. 런던수학과학연구소의 양휘허 교수는 "매우 뛰어난 대학원생 수준이거나 그 이상"이라고 평가했으며, 수학자들은 AI가 권위적으로 답변해 "위협에 의한 증명"을 구사한다고 우려를 표했다. 오노 교수는 "일반인공지능이 오지 않을 것이라고 말하는 것은 심각한 실수"라며 "이미 대형언어모델들이 세계 최고 대학원생들을 능가하고 있다"고 경고했다.
Thirty of the world's most renowned mathematicians convened in a secret meeting in Berkeley, California in mid-May to challenge OpenAI's reasoning AI model 'o4-mini' with mathematical problems, according to Scientific American. The mathematicians devised PhD-level problems expecting to stump the AI, but o4-mini shocked participants by solving an unsolved number theory problem in just 10 minutes. University of Virginia mathematician Ken Ono stated that "colleagues literally said these models are approaching mathematical genius," expressing his astonishment. The AI demonstrated its reasoning process in real-time, first mastering related literature in two minutes, then solving a simpler "toy" version to learn, before accurately tackling the complex original problem. In Epoch AI's 'FrontierMath' benchmark test, o4-mini solved around 20% of problems, a 10-fold improvement over traditional large language models' 2% success rate. Yang Hui He from the London Institute for Mathematical Sciences evaluated it as "very, very good graduate student level—in fact, more," while mathematicians expressed concern about the AI's authoritative responses constituting "proof by intimidation." Professor Ono warned that "it's a grave mistake to say that generalized artificial intelligence will never come," noting that "large language models are already outperforming most of our best graduate students in the world."
