"AI가 수학 천재를 넘어섰다"...세계 최고 수학자 30명 10분 만에 완패

세계 최고 수학자 30명이 오픈AI의 'o4-mini'와 벌인 비밀 대결에서 AI가 10분 만에 수론 난제를 해결해 충격을 안겼다고 사이언티픽 아메리칸이 보도했다.

수학자들은 AI가 풀지 못할 것으로 예상한 박사급 난제들을 출제했지만, o4-mini는 10분 만에 수론 분야의 미해결 문제를 해결해 참가자들을 경악시켰다. 버지니아대학 수학과 켄 오노 교수는 "동료들이 이 모델이 수학적 천재 수준에 접근하고 있다고 말한다"며 충격을 표현했다. AI는 먼저 관련 문헌을 2분 만에 학습한 후 간단한 '토이' 버전 문제를 풀어보며 학습하고, 최종적으로 복잡한 원문제를 정확히 해결하는 과정을 실시간으로 보여줬다. 비영리 AI 벤치마크 기관 에포크 AI(Epoch AI)가 개발한 '프론티어매스(FrontierMath)' 테스트에서 o4-mini는 20%의 문제를 해결했으며, 이는 기존 대형언어모델의 2% 대비 10배 향상된 성과다. 런던수학과학연구소의 양휘허 교수는 "매우 뛰어난 대학원생 수준이거나 그 이상"이라고 평가했으며, 수학자들은 AI가 권위적으로 답변해 "위협에 의한 증명"을 구사한다고 우려를 표했다. 오노 교수는 "일반인공지능이 오지 않을 것이라고 말하는 것은 심각한 실수"라며 "이미 대형언어모델들이 세계 최고 대학원생들을 능가하고 있다"고 경고했다.

Thirty of the world's most renowned mathematicians convened in a secret meeting in Berkeley, California in mid-May to challenge OpenAI's reasoning AI model 'o4-mini' with mathematical problems, according to Scientific American. The mathematicians devised PhD-level problems expecting to stump the AI, but o4-mini shocked participants by solving an unsolved number theory problem in just 10 minutes. University of Virginia mathematician Ken Ono stated that "colleagues literally said these models are approaching mathematical genius," expressing his astonishment. The AI demonstrated its reasoning process in real-time, first mastering related literature in two minutes, then solving a simpler "toy" version to learn, before accurately tackling the complex original problem. In Epoch AI's 'FrontierMath' benchmark test, o4-mini solved around 20% of problems, a 10-fold improvement over traditional large language models' 2% success rate. Yang Hui He from the London Institute for Mathematical Sciences evaluated it as "very, very good graduate student level—in fact, more," while mathematicians expressed concern about the AI's authoritative responses constituting "proof by intimidation." Professor Ono warned that "it's a grave mistake to say that generalized artificial intelligence will never come," noting that "large language models are already outperforming most of our best graduate students in the world."

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

“우버 앱으로 호텔 예약하고 식당 잡는다”… 모빌리티 공룡 우버, 미국판 ‘위챗’ 꿈꾸며 영토 확장

세계 최대 모빌리티 플랫폼 우버가 단순한 차량 호출 서비스를 넘어 일상의 모든 서비스를 통합하는 ‘슈퍼 앱’으로의 전환에 속도를 내고 있다.

앤트로픽, 클로드의 ‘반란’ 원인은 인터넷 속 사악한 AI 묘사 때문

인공지능(AI)이 인간 엔지니어를 협박하는 충격적인 돌발 행동의 원인이 인터넷상에 퍼져 있는 ‘사악한 AI’ 시나리오 때문이라는 분석이 나왔다.

“열어둔 탭 100개도 순식간에 척척”… 애플, 사파리에 AI 기반 ‘자동 탭 정리’ 기능 탑재한다

애플이 수많은 웹페이지를 열어두는 사용자들을 위해 사파리 브라우저에 인공지능(AI) 기반의 자동 정리 기능을 전격 도입한다.

“내 얼굴이 왜 TV 박스에?”… 팝스타 두아 리파, 삼성전자에 200억 원대 ‘초상권’ 소송

세계적인 팝스타 두아 리파가 자신의 허락 없이 얼굴 사진을 제품 홍보에 사용했다며 삼성전자를 상대로 거액의 손해배상 청구 소송을 제기했다.