세계 최고 AI 9종 시험 봤더니…200개 과제 완전 정복, 단 하나도 없었다

2026.05.12

세계에서 가장 뛰어난 AI 9종을 시험대에 올렸다. 점수는 전부 0점이었다.

2026년 5월, 메타 FAIR(기초 AI 연구소)·스탠퍼드대·하버드대 공동 연구팀이 '프로그램벤치(ProgramBench)' 벤치마크 논문을 공개했다. 연구팀은 FFmpeg(동영상 처리), SQLite(데이터베이스), PHP 인터프리터 등 실제 현장에서 쓰이는 핵심 프로그램 200종을 과제로 선정했다. 단, 소스코드는 주지 않았다. AI에게 주어진 것은 실행 파일과 사용 설명서뿐이었다. 이 정보만으로 원본과 동일하게 작동하는 코드를 처음부터 다시 짜내라는 과제였다.

‘Resolved’는 주요 지표로, 200개 작업 중 모든 테스트가 통과한 작업의 비율을 나타냅니다. ‘Almost’는 이 기준을 ≥95%의 테스트가 통과한 인스턴스로 다소 완화합니다. 또한 작업당 평균 API 호출 횟수와 비용도 보고합니다. — ^{완전 해결율 0%. 가장 성적이 좋은 모델조차 6개 과제에서만 테스트의 95%를 통과했다. (출처=arxiv.org)}

클로드 오퍼스 4.7, GPT-5.4, 제미나이 3.1 프로 등 현존 최고 수준의 언어 모델 9종을 투입했다. 연구팀은 총 24만 8853개의 동작 테스트로 AI들의 코드를 검증했다. 결과는 예상 밖이었다. 단 한 개의 모델도 200개 과제 중 하나를 완전히 풀어내지 못했다. 완전 해결율 0%. 가장 성적이 좋은 모델조차 200개 중 6개 과제에서만 테스트의 95%를 통과하는 수준에 그쳤다.

AI가 개발자를 대체할 것이라는 전망이 쏟아지는 시대다. 깃허브 코파일럿, 커서, 클로드 코드 등 AI 코딩 보조 도구 시장은 수조 원 규모로 성장했다. 기업들은 AI가 코드를 대신 짜주므로 개발 인력을 줄여도 된다고 판단하기 시작했다.

프로그램벤치의 결과는 그 기대에 찬물을 끼얹는다. 논문 저자들은 AI가 생성한 코드베이스가 단일 파일 구조(모놀리식)로 쏠려 있으며 인간이 작성한 코드와 구조적으로 크게 다르다고 밝혔다. AI는 소규모·단기 코드 생성에는 능하지만, 대형 소프트웨어가 요구하는 장기적 아키텍처 설계와 모듈 간 조율에는 근본적인 한계를 드러낸다는 분석이다. 연구팀은 현재의 AI 에이전트가 블랙박스 명세만 주어진 복잡한 실세계 소프트웨어를 합성하지 못한다고 결론 내렸다.

이 결론은 사실 낯설지 않다. AI 분야 최고 권위자가 이미 같은 방향을 가리킨 바 있기 때문이다.

강화학습(RL)의 창시자이자 2024년 ACM A.M. 튜링상 수상자인 리처드 서튼 앨버타대 교수는 팟캐스터이자 저널리스트 드와르케시 파텔과의 팟캐스트 인터뷰에서 단호하게 말했다. "LLM은 막다른 길(dead end)이다." 튜링상은 컴퓨터과학 분야 노벨상으로 불리는 최고 권위의 상이다.

팟캐스트 인터뷰에서 리처드 서튼 교수(오른쪽)과 팟캐스터 드와르케시 파텔이 대담을 나누고 있다. — ^{팟캐스트 인터뷰에서 발언중인 리처드 서튼 교수(오른쪽)}

서튼 교수와 그의 박사 지도교수 앤드류 바르토 매사추세츠대 명예교수는 수십 년간 RL의 이론적·알고리즘적 토대를 닦은 공로로 2025년 3월 수상자로 선정됐다. TD 학습(시간차 학습), 정책 경사법 등 현재 AI 학습에 광범위하게 쓰이는 핵심 기법이 이들의 손에서 나왔다.

서튼 교수는 LLM의 한계를 세 갈래로 짚는다.

첫째, LLM은 '모방 기계'다. 서튼은 "LLM은 인간이 어떻게 소통하는지를 흉내 내도록 훈련되어 있다"면서 "인간이 말할 법한 내용을 예측할 뿐, 행동의 실제 결과를 예측하거나 현실 세계와 상호작용하지 않는다"고 설명했다. 방대한 텍스트에서 다음 단어를 예측하는 것이 LLM의 본질인데, 그것이 곧 세계에 대한 이해는 아니라는 것이다.

둘째, 실질적인 목표가 없다. 그는 "진정한 지능은 세계에서 목표를 달성하는 것이지, 내부 지표를 최적화하는 것이 아니다"라고 말했다. 다음 토큰을 맞히는 작업은 외부 세계를 바꾸지 않는다. 반면 강화학습 에이전트는 환경과 직접 상호작용하고, 그 결과로 보상을 받으며 행동 전략을 개선한다. 서튼에게 LLM의 목표 함수는 지능의 핵심인 '세계 개입'과 무관하다.

셋째, 현장 학습이 불가능하다. "LLM은 현장에서 배우는 능력이 없다. 아무리 크게 키워도 새로운 아키텍처가 나오지 않으면 이 한계를 돌파할 수 없다"는 것이 그의 주장이다. 인간은 사회에 나가 일하며 계속 배운다. LLM은 대규모 사전 훈련 이후 세계에 대한 학습이 사실상 멈춘다.

서튼 교수의 이런 시각은 하루아침에 나온 것이 아니다. 2019년 그가 쓴 짧은 에세이 '쓴 교훈(The Bitter Lesson)'은 AI 연구계에 회자되는 고전이 됐다.

"70년간의 AI 연구에서 얻을 수 있는 가장 큰 교훈은, 컴퓨팅 파워를 활용하는 범용 방법이 결국 가장 효과적이라는 것이다." 그는 딥블루가 체스 세계 챔피언을 꺾은 사례, 음성 인식에서 통계 모델이 언어학 지식을 압도한 사례 등을 들며 인간이 설계한 지식보다 계산(연산)이 항상 이긴다고 역설했다.

역설적으로 이 에세이는 LLM의 성공을 예고하는 글로도 읽혔다. 하지만 서튼 자신은 LLM이 그 끝이 아니라 중간 단계라고 본다. '쓴 교훈'의 진정한 수혜자는 텍스트를 외운 LLM이 아니라, 세계와 상호작용하며 경험을 쌓는 RL 시스템이라는 것이다.

서튼 교수가 제시하는 대안적 패러다임의 가장 선명한 사례는 구글 딥마인드의 알파제로다.

알파고는 수백만 건의 인간 기보를 학습해 바둑 세계 챔피언을 이겼다. 알파제로는 달랐다. 바둑 규칙만 입력받은 알파제로는 자기 자신과 대국하며 스스로 배웠다. 체스는 4시간, 장기는 2시간 만에 기존 챔피언 AI를 제쳤고, 바둑도 30시간 만에 이세돌을 꺾은 알파고를 앞질렀다. 인간 데이터 없이 순수한 경험으로 초인적 능력에 도달한 것이다

2025년 4월, 서튼 교수는 딥마인드의 수석 연구원 데이비드 실버와 함께 논문 '경험의 시대에 오신 것을 환영합니다'를 발표했다. 이 논문은 MIT 프레스에서 출판 예정인 공저 도서의 일부다. 두 사람은 "수학, 코딩, 과학 등 핵심 분야에서 인간 생성 데이터로부터 얻을 수 있는 지식은 한계에 빠르게 다가가고 있다"며 AI가 나아가야 할 새로운 경로를 제시했다.

그들이 그리는 '경험의 시대' 에이전트는 네 기둥 위에 선다. 평생 지속되는 경험의 흐름, 감각-운동 행동, 환경에서 직접 얻는 보상, 인간과 다른 독자적 추론 방식. 이 에이전트는 인류의 기록을 암송하는 것이 아니라, 세계와 부딪히며 스스로를 개선한다.

LLM 진영도 이 논쟁에서 자유롭지 않다. 더 많은 데이터, 더 큰 모델, 더 많은 연산으로 성능이 향상된다는 스케일링 법칙(Scaling Law)이 한계에 다가서고 있다는 신호가 곳곳에서 감지된다.

AI 전문 매체 플랫포머는 "AI 기업들이 스케일링의 벽에 부딪혔다"고 보도했다. 일부 연구자들은 현재 추세대로라면 공개된 고품질 텍스트 데이터가 2028년경 소진될 것으로 추정한다. 오픈AI 공동 창업자 일리야 수츠케버는 "2010년대는 스케일링의 시대였다면, 지금은 다시 경이로움과 발견의 시대로 돌아왔다"고 말했다. 빅테크도 사전 훈련 스케일링 대신 추론 시 연산과 합성 데이터를 활용하는 방향으로 전략을 전환하고 있다.

물론 서튼의 주장에 반론도 있다. LLM을 단순 '모방 기계'로 치부하는 것은 과도한 단순화라는 시각이다. 실제로 최근 LLM은 도구 사용, 멀티스텝 추론, 에이전트 프레임워크와의 결합을 통해 점점 더 복잡한 작업을 수행하고 있다. RL 방법론을 LLM에 접목한 RLHF(인간 피드백 기반 강화학습), o3·딥시크 R1 등 추론 특화 모델도 서튼이 지적하는 한계를 부분적으로 극복하려는 시도로 해석된다.

프로그램벤치의 결과는 이 시도들이 아직 벽을 허물지 못했음을 보여준다. 아무리 정교한 에이전트 프레임워크를 갖춰도, 설계 수준의 추론이 요구되는 실세계 소프트웨어 앞에서 현재의 AI는 한계를 드러낸다.

챗GPT가 세상에 등장한 지 3년 반이 지났다. 우리는 LLM이 인류가 쓴 방대한 텍스트를 놀랍도록 정교하게 재현할 수 있다는 것을 알게 됐다. 그것은 실용적이고, 유용하고, 때로는 경이롭다. 그러나 서튼 교수의 질문은 남는다. "세계와 상호작용해 스스로 배우는 것"과 "인류의 기록을 정교하게 재현하는 것"은 같은가.

프로그램벤치는 그 질문에 수치로 답했다. FFmpeg도, SQLite도, PHP 인터프리터도 지금의 AI는 만들내지 못했다. 모놀리식 단일 파일로 흉내를 냈을 뿐이다.

AI의 다음 도약이 어디서 올지, 그 방향을 둘러싼 논쟁은 이제 학계를 넘어 산업과 정책의 영역으로 번지고 있다. 분명한 것은 하나다. 지금은 LLM의 전성기이자, 동시에 그 한계를 직시하기 시작한 시대다.

#LLM #강화학습 #리처드 서튼 #프로그램벤치

정재엽 기자

anihil@tech42.co.kr

기자의 다른 기사보기