‘7개월마다 2배로 된다’는 AI의 법칙에 대한 통찰력

2025.07.07

^{대규모 언어 모델(LLM)은 기하급수적인 속도로 개선되고 있다. 이 공간이 2030년까지 계속된다면, 사람이 한 달(167 근무 시간) 걸리는 작업을 몇 시간 안에 완료할 수 있을 것이다. (자료=모델 평가 및 위협 연구소(METR))}

“2030년까지 가장 진보된 대규모 언어 모델(LLM)은 인간이 주 40시간씩 한 달 동안 일하는 소프트웨어 기반 작업을 50%의 신뢰도로 완료할 수 있게 될 것이다. 또한 꽤 괜찮은 소설을 쓸 수 있고, 기업을 세울 수 있으며, 이러한 작업 중 많은 작업을 인간보다 훨씬 더 빠르게 수행할 수 있을 것이다. 인간이 한달 걸리는 작업을 하는 데 드는 시간은 시간이 단 며칠, 심지어 단 몇 시간만 소요될 수도 있다.”

지난 3월 ‘긴 작업을 완료할 수 있는 AI 능력 측정(Measuring AI Ability to Complete Long Tasks)’이라는 논문에서 “대규모언어모델(LLM)이 7개월마다 성능이 배로 증가한다”는 평가 결과를 발표한 캘리포니아 버클리 소재 모델 평가 및 위협 연구소(Model Evaluation & Threat Research·METR)가 그에 기반한 통찰력을 제시했다.

이 AI성능 향상에 대한 통찰력은 1965년 인텔의 고든무어가 ‘반도체 집적도는 2년마다 배증한다’는 이른바 무어의 법칙과 비교된다.

IEEE스펙트럼은 지난 2일 이 연구에 참여한 연구원의 문답을 통해 ‘AI에서의 무어의 법칙이라한 이 결론에 대한 최신 통찰력, 즉 이 AI 모델의 이점, 대량 실업 이외의 재앙적 영향(부작용), 이 트렌드 지속을 막는 요인 등을 살펴봤다.

논문 저자 중 한명인 메이건 키니먼트는 IEEE스펙트럼과의 인터뷰에서 LLM 성능향상 법칙이 실현되기 위해서는 SW와 하드웨어가 뒤따라 줘야 하며, 그렇지 못해 병목현상이 발생할 수도 있다고 봤다. 또 AI 시대의 위협에 대해 모두가 실업자가 되거나 대부분의 일에 인력이 필요하지 않게 되면 군대유지에 인력이 필요하지 않거나 훨씬 적은 수의 인력이 필요해져 본질적으로 누군가 쿠데타를 더 쉽게 일으킬 수 있고, 기업 데이터 센터에 수많은 천재를 둔 고용주에게 권력이 집중될 수 있어 더 이상 민주 국가가 없을 수도 있다고 예상했다. .

2030년까지 LLM이 괜찮은 소설을 쓸 수 있게 된다

^{METR의 지난 3월 30일자 논문의 결론을 보여주는 도표. 일반주의자 자율 프런티어 모델이 50% 신뢰도로 완료할 수 있는 작업 시간(인간 전문가가 걸리는 시간으로 측정)은 지난 6년 동안 약 7개월마다 배로 증가해 왔다(섹션 4). 음영 처리된 영역은 작업군, 작업 및 작업 시도에 대한 계층적 부트스트랩을 통해 계산된 95% 신뢰구간(CI)을 나타낸다. 절대 측정값이 10배 차이가 나더라도, 이러한 추세는 10년 이내에 AI 에이전트가 현재 인간이 며칠 또는 몇 주 걸리는 소프트웨어 작업의 상당 부분을 독립적으로 완료할 수 있을 것으로 예측했다. (섹션 7) (자료=METR)}

LLM 모델의 작업에는 회사를 설립하거나 소설을 쓰거나 기존 LLM을 크게 개선하는 것이 포함될 수 있다.

AI 연구원인 자크 스타인 펄먼은 블로그 게시물에서 이러한 기능을 갖춘 LLM의 가용성에는 “잠재적 이점과 잠재적 위험 측면에서 엄청난 충격이 수반될 것”이라고 썼다.

METR 작업의 핵심은 연구자들이 고안한 ‘작업 완료 시간 지평선(task-completion time horizon)’이라는 지표다. 이는 LLM이 특정 수준의 신뢰성(예=50%)으로 완료할 수 있는 작업을 인간 프로그래머가 수행할 때 걸리는 평균 시간이다.

몇 년 전으로 거슬러 올라가는 일부 범용 LLM에 대한 이 지표의 도표는 약 7개월의 두 배 주기로 명확한 지수(기하급수적) 성장을 보여준다.

METR 연구원 메간 키니먼트에 따르면 연구원들은 또한 작업의 ‘복잡하고 혼란스러움(messiness)’ 요인을 고려했으며 이러한 작업은 ‘실제 세계’ 작업과 더 유사한 작업이었다. LLM의 경우 더 혼란스러운 작업일수록 더 어려웠다.

^{METR 연구원 메간 키니먼트에 따르면 연구원들은 AI성능 향상과 관련해 작업의 ‘복잡하고 혼란스러움(messiness)’ 요인도 고려했으며 이러한 작업은 ‘실제 세계’ 작업과 더 유사한 작업이었다. LLM의 경우 더 혼란스러운 작업일수록 더 어려웠다. (자료=METR)}

키니먼트는 이러한 ‘LLM이 스스로 개선된다’는 생각이 특이점-로보칼립스 특성을 가지고 있다는 데 동의하지는 않았지만 주의 사항을 덧붙였다. 흔히 특이점은 AI가 인간의 지능을 넘어서는 시점, 로보칼립스는 인간의 통제를 넘어선 AI에 의한 종말을 일컫는다.

그녀는 “매우 강렬한 가속이 발생할 수 있으며, 그것이 반드시 엄청난 폭발적 성장으로 이어지지는 않지만 의미있는 제어를 하기 어려운 상황을 만들 수 있다”고 말했다.

키니먼트는 실제로는 다양한 요인이 AI 모델 성능 향상 속도를 늦출 수 있다고 덧붙였다.

그녀는 예를 들어 “우리가 설령 아주 아주 영리한 AI를 보유하고 있더라도 이러한 발전 속도는 하드웨어나 로봇 공학과 같은 분야에서 병목 현상을 일으킬 수 있다”고 말한다.

아래는 LLM 논문 연구에 참여한 메이건 키니먼트 METR연구원과의 인터뷰 문답 내용이다.

LLM 예측이 실현되려면

-이러한 결과를 얻을 것이라고 예상했나?

▲메건 키너먼트 =나는 적어도 개인적으로는 이렇게 명확한 기하급수적 결과를 얻을 것이라고는 예상하지 못했다. 하지만 모델은 확실히 빠르게 발전해 왔다. 따라서 빠른 속도의 진전을 전적으로 예상치 못한 것은 아니었다.

-논문에서 지적했듯이 미래를 내다보고 외삽하는 것은 항상 위험한 일이다. 하지만 이러한 추세가 지속될 가능성이 있다고 말했는데, 이는 2030년이 되면 한 달 분량의 작업이 최첨단 대규모 언어 모델로도 처리 가능해질 것이라는 의미다.

▲키너먼트=한 번 살펴보자. 한 달은 약 167시간의 근무 시간을 의미하는데, 이는 한 달 동안 [인간]이 작업하는 시간이다. 그리고 이는 50%의 신뢰도를 의미한다. 하지만 더 긴 작업은 일반적으로 실제로 유용성을 갖기 위해 더 높은 신뢰도가 필요한 것으로 보인다. 따라서 실제 경제에 미치는 영향이 예상만큼 크지 않을 수 있다.

-예측이 실현되려면 여러 가지가 지속돼야 한다. 하드웨어는 현재와 비슷한 속도로 계속 발전해야 하고, 소프트웨어 또한 꾸준히 발전해야 한다. 최근 몇 년 동안 발생하고 있는 숨 막힐 듯한 장면에서 학습을 지속하려면 충분한 학습 데이터와 그 학습 데이터의 가용성이 필요하다.

▲키너먼트=우리가 찾은 예측과 날짜는 작업 세트에서 나타나는 추세를 추정한 것일 뿐이다. [추세는] 실제 요인이나 컴퓨팅 확장 변화를 고려하지 않았다.

-만약 대규모 언어 모델이 167시간 분량의 작업을 50%의 신뢰도로 완료할 수 있다면, 현재 LLM의 역량 범위는 어떻게 될까?

▲키너먼트=음, 우리가 자주 생각하는 가장 중요한 것은 AI R&D 연구 자체의 가속화이다. 회사의 더 나은 모델 개발 능력을 가속화하는 모델을 만들 수 있다면, AI 역량이 매우 빠르게 발전하는 상황에 놓일 수 있다.

AI의 기하급수적 성장이 인류에게 의미하는 것

^{LLM이 7개월마다 성능 배증 경향을 보인다는 결론을 도출한 연구원들 중 한명인 메건 키니먼트 연구원.(사진=METR)}

-논문에서 묘사하는 내용은 특이점이라는 개념을 연상시킨다. 즉, AI가 인간의 도움 없이 스스로 다른 AI를 만들어 낸다는 그 개념이다.

▲키너먼트=나는 상당히 강렬한 가속화가 이뤄지며 그것이 반드시 거대한 폭발적 성장을 하지 않더라도 의미있는 수준으로 상황을 더 제어하기 어렵게 만들 수 있다고 생각한다. 실제로는 속도를 늦추는 다양한 병목 현상이 있을 수 있다고 생각할 만한 이유가 있다. 아주아주 뛰어난 AI가 있다고 해도 이러한 발전 속도는 하드웨어나 로봇 공학과 같은 것들 때문에 병목 현상으로 이어질 수 있다. 하지만 특이점은 분명 이 분야 전체와 관련된 개념이다. 상황이 상당히 빠르게 진행될 수 있지만, 특이점이 없이 아무 것도 못하는 것은 아니다.

특이점에 비하면 완만한 [AI 개발 속도]라도 세상이 적응하는 데 여전히 상당히 강력할 수 있다.

-논문에서 일부 LLM이 실수를 통해 적응하고 개선하는 능력이 향상되고 있는 것으로 나타났다고 지적했다.

▲키너먼트=사실 챗GPT 이후, 그리고 그 이전에도 비교적 점진적인 변화였다고 생각한다. 그들은 뭔가에 막힐 가능성이 적다. 일이 잘 풀리지 않을 때 전략을 바꾸는 데는 조금 더 능숙하지만, 이는 약간의 타격이나 실패다. 그리고 예전보다 훨씬 더 잘하고 도구 사용에도 능숙한다. 하지만 크게 변하지 않은 몇 가지 근본적인 측면이 있는 것 같다. 새 모델을 구입할 때마다 한 가지 주목하고 싶은 점은 각 작업마다 모델에게 여러개의 토큰, 즉 여러개의 말할 수 있는 단어를 제공한다는 것이다. 그리고 그들에게 작업을 수행할 시간을 점점 더 많이 주거나 토큰을 점점 더 많이 준다고 상상해 보자. 그것들이 모델의 성공 확률에 어떤 영향을 미칠까?그리고 기본적으로 우리가 보는 것은 그들이 꽤 강하게 정체돼 있다는 것이다. 더 많은 토큰을 제공하는 지점이 있는데, 실제로 도움이 되지 않는다. 그리고 각 새로운 모델마다 그 정체는 조금 더 높아진다.

인간도 (시간경과에 따라)산출량이 줄어들고 있다고 생각한다. 하지만 인간에게 무언가를 할 수 있는 시간을 많이 주면, 특히 여러 명의 인간이 있는 경우 더 잘할 수 있을 것이다. 그리고 절대 점수가 낮더라도 계속해서 일을 하고 개선할 수 있을 것 같은 큰 언어 모델에 깊은 인상을 받았을 것이다. 그건 대단한 것이다.

-모델이 ‘혼란스러움(messiness)’ 점수가 높은 작업에서 더 나쁜 성능을 보인다는 것을 발견했다. 데이터를 통해 이러한 상황이 변화하고 있다는 신호가 있었나? 즉, 모델이 더 높은 혼란을 가진 작업을 처리하는 능력을 더 많이 얻고 있을 수도 있다는 뜻인가?

▲키너먼트=혼란스러움은 우리의 과제가 현실 세계와 비교하면 얼마나 비현실적인지를 정량적으로 측정하기 위해 만든 척도다. 그리고 대부분의 과제는 그렇게 혼란스럽지 않다. 16 척도에서 평균은 약 3이고 가장 혼란스러운 과제는 8 정도다.

-그렇다면 혼란스러움 측면에서 (가장 어려운)16점을 맞은 과제는 무엇일까?

▲키너먼트=자원 제한이 많은 스파이 활동과 같은 것이다. 매우 징벌적이다. 적극적으로 자신을 최적화하는 에이전트들이 있다. 이는 실수하기 쉽다. 참신한다.

-후속 연구를 계속할 계획인가?

▲키너먼트=오픈AI는 o3를 발표했는데, 추세를 고려할 때 o3는 예상보다 조금 더 뛰어난 성능을 보였다. 따라서 다른 모델을 측정하는 측면에서 어느 정도 후속 조치를 취하고 있다. 우리는 AI 개발과 AI 시스템으로 인한 재앙적 위험에 대해 전세계에 알리는 데 계속 집중하고 싶다.

첨단 AI로 인한 재앙적 위험

-AI로 인해 발생할 수 있는 가장 큰 재앙적 위험은 무엇인가? AI가 최고의 능력을 갖추게 되면 엄청난 고용 이탈이라는 재앙이 생길 것 같은 생각이 든다.

▲키니먼트=재앙적인 위험에 대해 이야기할 때는 대량 실업에 대해서만 이야기하는 것이 아니다. 말하자면 이런 것이다. 모두가 실업자가 되거나 대부분의 일에 인력이 필요하지 않다면 군대를 유지하기 위해 인력이 필요하지 않거나 훨씬 적은 수의 인력이 필요할 수도 있다. 그렇게 하면 본질적으로 누군가 쿠데타를 더 쉽게 일으킬 수 있다. 또는 데이터 센터에 수많은 천재가 있다면 (그들을 고용하는 당신은) 매우 강력한 사람이 될 수 있다. 이를 사용해 군사 하드웨어를 생산하면 권력이 집중될 수 있고 더 이상 민주 국가가 없을 수도 있다.

-이 모든 일은 분명히 어떤 형태의 의식도 없이 일어날 것이다. 이 기계들은 계획하는 능력을 가지고 있지만, 이를 수행할 때 인간같은 의식을 갖지 않는다. 이를 위해서는 의식이 필요하지 않다.

▲키니먼트=의식은 어려운 문제이다. 특정 행동에 의식이 필요한지 잘 모르겠다. 내 급여 등급보다 약간 높은 것 같다. 또한 이 시점에서 의식을 가질 수 있다는 것도 미친 짓이 아니라고 생각한다. 그들은 매우 지적일 것이다.

-그래서 그들이 미래의 어느 시점에 의식을 가질 가능성이 있다고 생각하나?

▲키니먼트=내 말은 그들이 당신과 나만큼 똑똑하다면 그다지 미친 것 같지 않다는 거다. 그들이 아니라고 해도 미친 것처럼 보이지 않고, 그렇다고 해도 미친 것처럼 보이지 않는다.

#)#AI 성능 7개월마다 배증 #AI가 가져올 재앙적 위험 #AI의 기하급수적 성장 #AI의 부작용 #LLM성능 7개월마다 배증 #METR #긴 작업을 완료할 수 있는 AI 능력 측정(Measuring AI Ability to Complete Long Tasks #대규모언어모델(LLM)#로보칼립스 #로보포칼립스 #메이건 키너먼트 #모델 평가 및 위협 연구소(Model Evaluation & Threat Research·METR)#특이점 #혼란스러움(messiness)

이재구 기자

jklee@tech42.co.kr

기자의 다른 기사보기