이젠 美 AI 빅테크도 딥시크처럼?···증류모델 그 위험성과 기회

2025.03.10

^{오픈AI의 달리(DALL·E)는 각 계층을 통해 반복적으로 짜여진 에메랄드 스트림으로 된 기둥역할을 하는 밝은 녹색 사각형이 쌓인 인상파 그림을 생성했다. (사진=오픈AI)}

오픈AI, 마이크로소프트(MS), 메타를 포함한 선도적 주요 인공지능(AI) 기업들이 이른바 ‘(지식)증류(knowledge distillation)’기술을 사용해 더 저렴한 모델을 만드는 경쟁에 가세했다. 소비자와 기업들이 채택하기에 용이한 더 저렴한 AI 모델을 만들기 위한 글로벌 경쟁에서 증류 프로세스로 전환하는 큰 흐름에 올라탄 것이다.

지난달초 미국 대학 연구팀이 증류기술을 사용해 단 50달러(약 7만300원)로 챗GPT-o1에 맞먹는 모델을 만들었고, 또다른 팀은 단 30달러(약 4만4000원0로 딥시크 R1-0를 복제했다고 밝혀 세상을 놀래켰다.

증류로 불리는 이 기술은 지난 1월 딥시크가 메타와 알리바바의 오픈소스 시스템으로 더 효율적이고 더 작고 강력한 AI 모델을 구축하는 데 사용할 수 있었다고 밝힌 후 크게 주목받기 시작했다. 이 획기적인 발전은 실리콘 밸리의 AI 리더십에 대한 신뢰를 흔들었고, 월가 투자자들은 미국 빅테크 주식에서 수십억 달러의 가치를 날렸다. 반면 이 적은 비용을 사용한 성과는 AI 민주화를 위한 혁신으로도 받아들여진다.

이런 세계 AI 산학계의 흐름속에서 선발 AI업계는 이 추세를 어떤 관점에서 보고 어떻게 대응하고 있으며, 미국 전문가들이 보는 증류기술을 사용한 저가 AI의 위험성은 어떤 것이 있는지 알아봤다. 파이낸셜타임즈(FT), 매셔블, 더버지, 테크크런치, 인터레스팅 엔지니어링을 참고했다.

왜 선도 AI 기업들이?...딥시크가 사용한 증류가 가져온 변혁

^{딥시크가 지난 1월에 발표한 자사 딥시크 R1-0 모델에 사용했다는 증류기술이 전세계 AI연구 개발에 새로운 흐름을 가져오고 있다. 미국의 선도적 AI업체들이 이 기술을 채택해 모델을 만들거나 개발자들의 사용을 장려하기 시작했다. (사진=딥시크)}

^{지식증류 개념도. 지식증류는 모델증류로도 불린다. (사진=아카이브)}

증류는 더 작은 AI 모델이 더 큰 AI 모델에서 생성된 답변에서 답을 도출할 수 있도록 훈련하는 방법이다. 즉, ‘교사’ 모델, 즉 기존 대기업의 AI모델로 AI개발 데이터를 생성해 더 작은 ‘학생’ 모델을 훈련시켜 더 큰 모델이 가진 지식과 예측을 더 작은 모델로 빠르게 전달하는 데 도움을 주는 기술이라 할 수 있다.

증류를 통해 기업은 ‘교사’모델이라고 하는 대규모 언어 모델을 사용해 한 문장에서 다음에 나올 가능성이 있는 단어를 생성한다. 교사 모델은 데이터를 생성한 다음 더 작은 ‘학생’ 모델을 훈련시켜 더 큰 모델의 지식과 예측을 더 작은 모델로 빠르게 전환하는 데 도움이 된다.

딥시크는 자사 모델 개발에 강화학습(RL)을 사용했다고 주장했지만 미국 주요 AI 기업들은 대규모 AI모델인 오픈AI, 메타, 알리바바 등의 AI모델에 증류기술을 적용해 개발한 것으로 보고 있다.

이 증류 기술은 지난 수 년 동안 널리 사용돼 왔으며, 최근 기술적 진전을 보이고 있다. 이에 따라 업계 전문가들은 증류기술이 이를 기반으로 애플리케이션을 구축하는 비용 효율적 방법을 찾는 스타트업에게 점점 더 큰 도움이 될 것이라고 믿고 있다.

올리비에 고드망 오픈AI 플랫폼 제품 책임자는 “증류는 매우 마법과도 같다. 이는 본질적으로 매우 크고 스마트한 프론티어 모델을 사용해 매우 저렴하고 실행 속도가 매우 빠른 특정 작업에 매우 능숙한 작은 모델을 가르치는 과정이다”라고 설명한다.

그런데 오픈AI는 딥시크가 경쟁 AI모델을 훈련시키기 위해 오픈AI의 모델을 증류했다고 믿고 있다고 말했으며, 그렇다면 이는 서비스 약관에 위배되는 조치다. 딥시크는 이러한 오픈AI 주장에 대한 더버지의 언급 요청에 답하지는 않았다.

중요한 것은 딥시크의 ‘깨달음의 순간(aha moment)’이 저비용으로 강력한 AI를 구축하는 새로운 방법을 만들었다는 것이다.

증류는 또한 개발자가 자유롭게 사용할 수 있도록 기술을 제공하는 개방형 모델 옹호자들의 승리다. 딥시크는 자사의 최신 모델도 개발자에게 공개했다.

미국 선발 AI 빅테크들도 이른 흐름을 무시할 수는 없었던 것으로 보인다.

오픈AI에 약 140억 달러를 투자한 최대 후원자 MS는 오픈AI와 맺은 상업적 파트너십의 일환으로 GPT-4를 사용한 증류를 통해 소규모 언어 계열의 AI 모델 파이(Phi)를 내놨다.

메타의 최고 AI 과학자인 얀 르쿤도 “우리는 [증류]를 사용해 바로 제품에 적용할 것이다. 그게 오픈 소스의 전체적인 아이디어다. 프로세스가 개방되어 있는 한 누구나 모든 사람들의 발전으로부터 이익을 얻을 수 있다”고 말했다.

오픈AI는 지난해 10월 홈페이지를 통해 다음과 같은 개발자를 위한 새로운 모델 증류(Model Distillation) 제품군을 소개하고 설명하면서 이 흐름에 개발자들을 적극 참여시키고 있다.

“▲저장된 완성(Stored Completions)=이제 개발자는 오픈AI의 API를 통해 GPT‑4o 또는 o1‑프리뷰와 같은 모델 중 하나에서 생성된 입력-출력 쌍을 자동으로 캡처하고 저장해 증류를 위한 데이터 세트를 쉽게 생성할 수 있다. 저장된 완성을 사용하면 프로덕션 데이터로 데이터 세트를 쉽게 빌드해 모델을 평가하고 미세 조정할 수 있다. 개발자는 이 통합 가이드를 검토해 저장된 완성품을 사용하기로 동의(opt-in)하는 방법을 알아볼 수 있다. ▲Evals(베타)=이제 개발자는 플랫폼에서 사용자 지정 평가를 생성하고 실행해 특정 작업에 대한 모델 성능을 측정할 수 있다. Evals는 수동으로 평가 스크립트를 생성하고 서로 다른 로깅 도구를 통합하는 대신 모델 성능을 측정하는 통합된 방법을 제공한다. 저장된 완성품의 데이터를 사용하거나 기존 데이터 세트를 업로드해 평가를 설정할 수 있다. Evals는 미세 조정과 별도로 사용해 사용 사례에 대한 모델 성능을 정량적으로 평가할 수도 있다. ▲미세 조정=저장된 완성품과 Evals는 기존 미세 조정 제공물과 완벽하게 통합돼 있다. 즉, 개발자는 저장된 완성품으로 만든 데이터 세트를 미세 조정 작업에 사용하고 Evals를 사용해 미세 조정된 모델에 대한 평가를 실행할 수 있으며, 이 모든 작업은 플랫폼 내에서 이뤄진다.”

이와함께 모델 증류 사용 방법과 모델 증류에 사용된 평가의 예도 함께 소개하고 있다.

미 대학들, 10만원 미만으로 딥시크 복제와 저가 AI모델 내놨다

^{버클리대 박사 후보생인 쟈이 팬이 이끄는 연구원들은 지난 1월 25일 ‘타이니제로(Tiny 0)’라는 딥시크 핵심기술을 복제해 내놓고 공개 실험을 위해 깃허브에 공개했다. (사진=쟈이팬 X)}

지난 1월 중국의 딥시크가 자사 AI 모델 훈련에 미국 AI 회사 지출비용의 수십~수백분의 1에 불과한 수백만 달러(수십억원)를 들였다고 주장해 세계 AI 기술계를 흔들었다.

하지만 충격적 성과는 거기서 끝나지 않았다. 미국 캘리포니아 주립 버클리대(UC버클리) 연구 그룹은 1월 25일 딥시크 AI의 핵심 기술을 총 30달러의 비용으로 복제해 재현하는 데 성공했다고 주장했다. 이 혁신은 전체 데이터 센터, 전력 소모가 많은 GPU, 수백만 달러 또는 수십억 달러의 지출이 필요하다는 기존의 통념을 또다시 뒤집어놓았다.

버클리대 박사 후보생인 쟈이 팬이 이끄는 연구원들은 ‘타이니제로(Tiny Zero)’라는 더 작은 규모의 버전을 만들고 공개 실험을 위해 깃허브에 공개했다.

딥시크 주요 제품의 6710억 개의 매개변수의 무게감은 없지만, 팬은 강화 학습(RL,보상 학습)에 중점을 둔 타이니제로가 딥시크의 소위 ‘R1-0’ 모델에서 볼 수 있는 핵심 행동들을 포착한다고 말했다. 팬의 강화학습 접근 방식은 AI가 거의 무작위 추측으로 시작해 가능한 솔루션을 수정하고 검색함으로써 점진적으로 답변을 다듬는 기술이다.

며칠 간의 작업과 몇십 달러만으로 그러한 핵심 AI 기능을 복제할 수 있다는 생각은 많은 업계 관찰자들의 눈을 휘둥그레지게 만들었다.

그는 프로젝트를 설명하는 게시물에서 플레이어가 주어진 숫자를 결합해 목표 값에 도달하는 영국의 TV 퍼즐인 카운트다운 게임을 강조했다. 팬은 AI가 처음에는 ‘더미 출력’을 뱉어냈지만 궁극적으로 자신의 실수를 수정하는 방법을 알아냈다고 썼다.

그럼에도 회의론자들은 주의를 촉구하고 있다. 비평가들은 딥시크가 주장하는 저렴한 가격 수치가 전체적인 그림을 보여주지 못할 수 있다고 지적한다.

팬의 ‘타이니제로’는 고급 강화 학습을 예산에 맞춰 수행할 수 있음을 보여주지만, 더 큰 딥시크 시스템이 처리할 수 있는 작업의 깊이나 폭을 반드시 대응할 수 있는 것은 아니다. 타이니제로는 본격적인 도전자라기보다는 단순화된 개념 증명에 더 가까울 수 있다.

그럼에도 그 의미는 크다. 이 시연은 AI 분야에서의 더 깊은 변화를 암시하고 있다.

오픈소스 개발자가 부족한 리소스로 정교한 기능을 복제할 수 있다면 오픈AI, 구글 또는 MS와 같은 주요 업체가 플랫폼에 막대한 금액을 투자하는 이유에 대한 의문이 제기되기 때문이다.

결국 오픈소스 구상은 더 적은 예산으로 AI 모델을 운영함으로써 이러한 기술 거대 기업을 약화시킬 수 있다.

타이니제로와 딥시크 R1은 작고 리소스 친화적인 AI 모델에 대한 욕구가 커지고 있음을 나타낸다.

많은 사람들은 최첨단 혁신에 수십억 달러(수조원)의 지출이 필요하다고 생각했다. 이제 똑똑한 대학원생이나 엉성한 스타트업이 저렴한 혁신으로 세상을 놀라게 할 수 있을 것 같다.

이것이 궁극적으로 AI 인프라의 미래를 바꿀지 아니면 흥미로운 변칙 현상으로 남을지는 알 수 없지만, 저렴하면서도 강력한 AI에 대한 대화는 이제 막 시작일 뿐이다.

이어 스탠포드대와 워싱턴 대 연구원들은 구글의 제미나이 추론 모델에서 증류 기술을 사용해 50달러도 안 되는 비용으로 단 26분만에 오픈AI 경쟁자를 훈련시킨 모델을 내놓았다고 아카이브 발표논문(3월1일자,https://arxiv.org/pdf/2501.19393)을 통해 공개했다.

이들이 만든 ‘s1’ 모델은 사전 학습된 모델, 지극히 적은 예산 구성, 그리고 단 16개의 엔비디아 H100 GPU를 교묘하게 조합해 만들었지만 오픈AI의 챗GPT-o1과 딥시크의 R1에 대한 강력한 경쟁자로 제시되고 있다. 이는 초저가 AI 모델로 AI 기술을 민주화하는 데 중요한 발걸음을 내디딘 혁신으로 평가받고 있다.

이들은 논문에서 “s1 모델을 만드는 데 핵심적인 것은 교육에 대한 혁신적인 접근 방식이었다. 사전에 학습된 알리바바 클라우드의 오픈소스 모델인 큐원2.5(Qwen2.5)모델과 지도 미세 조정(SFT)*을 활용했다.(*SFT를 통해 AI 모델에 데이터 세트의 특정 행동을 모방하도록 명시적으로 지시했다.) 이 방법을 통해 기존 지식과 전문성을 빠르게 구축해 학습 프로세스를 최적화할 수 있었다. 데이터 세트는 구글의 AI 추론 모델인 제미나이 2.0 플래시 씽킹 익스페리멘털(Flash Thinking Experimental)모델에서 가져온 1000개의 질문으로 구성된 소규모 데이터 세트를 사용함으로써 50달러 미만의 모델을 만들었다...모델은 단 16개의 엔비디아 H100 GPU만으로 훈련했다”고 밝혔다.

이들은 특히 s1 모델이 “테스트 시간 스케일링(test-time scaling)이라는 기술을 사용해 모델이 답을 내놓기 전에 모델의 응답에 강제로 ‘대기(Wait)’토록 하는 과정을 추가해 모델이 추론을 계속하도록 했다. 이에 따라 모델이 답을 두 번 확인해 종종 잘못된 추론 단계를 수정할 수 있었다”고 논문에서 밝히고 있다.

AI에서 테스트 시간 스케일링은 사전 학습이나 재학습에만 의존하지 않고 추론(테스트) 중에 계산 리소스를 동적으로 할당해 모델 성능을 개선하는 기술을 말한다. 이를 통해 모델은 ‘더 오래 생각하고’ 다양한 추론 경로를 탐색하여 특히 복잡한 작업의 경우 더 정확한 답을 얻을 수 있다.

연구원들은 처음에는 모델을 훈련하기 위해 5만 9000개의 질문 풀로 시작했지만 더 큰 데이터 세트가 난이도, 다양성, 품질 등 세가지 기준을 적용, 추론과 결합된 1000개로 줄어든 질문세트에 비해 ‘상당한 이득을 제공하지 않는다’는 것을 발견했다고 말했다.

더 작고 저렴한 AI 모델의 등장은 전체 산업을 뒤집을 위협이 된다. 연구원들은 결국 오픈AI, MS, 메타, 구글과 같은 주요 기업이 엄청난 비용이 드는 수천 개의 엔비디아 GPU로 채워진 거대한 데이터 센터를 구축하는 동안 AI를 훈련하는 데 수십억 달러(수조원)를 쓸 필요가 없다는 것을 증명했다.

그런데 구글의 서비스 약관은 제미나이의 API를 사용해 회사의 AI 모델과 "경쟁하는 모델을 개발"할 수 없다고 명시하고 있다.

전문가가 말하는 증류 AI 모델의 장단점

^{2023년 구글연구소가 공식 블로그에 게재한 외부 논문에서 단계적 증류방식을 소개하고 있다. LLM모델과 단계적 증류를 거치는 특정 작업 모델에 필요한 데이터 소요량을 나타낸 그래프. (사진=구글블로그)}

오픈 AI의 GPT-4, 구글의 제미나이, 메타의 라마와 같은 대형 언어 모델은 개발 및 유지 관리를 위해 방대한 양의 데이터와 컴퓨팅 성능이 필요하다. 두 회사는 대형 모델을 훈련하는 데 드는 비용에 대한 정확한 수치를 공개하지 않았지만, 수억 달러가 소요될 것으로 예상된다.

증류 덕분에 개발자와 기업은 이러한 모델의 기능을 저렴한 가격에 이용할 수 있어 앱 개발자들은 노트북과 스마트폰과 같은 기기에 AI 모델을 빠르게 실행할 수 있게 됐다. 개발자들은 오픈AI의 플랫폼을 증류에 사용해 챗GPT와 같은 제품을 뒷받침하는 대규모 언어 모델에서 학습할 수 있다.

전문가들은 증류를 사용해 고성능 모델을 만들 수는 있지만 그 성능이 더 제한적이라고 덧붙이기도 한다.

MS 연구소의 아메드 아와달라는 “증류는 흥미로운 상쇄 효과(또는 반대급부)를 제공한다. 모델을 더 작게 만들면 필연적으로 성능이 저하된다”고 말했다. 그는 “증류된 모델은 예를 들어 이메일을 요약하는 데 매우 적합하도록 설계할 수 있지만 실제로는 다른 어떤 것에도 적합하지 않을 것이다”라고 덧붙였다.

반면 데이비드 콕스 IBM 연구소 AI 모델 담당 부사장은 대부분의 기업이 제품을 실행하기 위해 대규모 모델을 필요로 하지 않으며, 증류형 모델은 고객 서비스용 챗봇이나 휴대폰과 같은 작은 장치에서 실행되는 등의 목적에 충분히 강력하다고 말한다. 그는 “[더 저렴하게] 원하는 성능을 제공할 수 있고 적절한 성능을 발휘할 수 있다면, 그렇게 하지 않을 이유는 거의 없다”고 덧붙였다.

AI빅테크, 외부기업의 자사기술 증류 가능성에 감시나섰다

^{오픈AI는 이제 딥시크같은 외부기업의 증류를 위한 데이터 접속을 감시하면서 한편으로는 보급을 위한 증류 기반의 값싼 소규모 AI 모델을 유도하고 있기도 하다.}

그런데 이같 상황은 선도적 AI 기업의 많은 비즈니스 모델에 도전 과제가 된다.

증류는 또한 모델 제작자가 AI 시스템의 기능을 향상시키기 위해 수십억 달러를 지출할 수 있지만 딥시크의 최근 발표작에서 보여지듯이 종종 빠르게 따라잡는 경쟁자와 마주하게 됨을 의미한다. 이는 경쟁자가 단 몇 달 만에 LLM을 구축한 기업의 모델 기능을 복제할 수 있을 때 선두 주자(first mover)의 이점에 대한 의문을 제기한다.

또한 오픈AI와 같은 선발업체들은 개발자가 자사의 증류 AI 모델을 사용하면 실행 비용이 훨씬 저렴하고 제작 비용이 저렴해 수익창출액이 적어질 수 밖에 없다.

오픈AI와 같은 모델 제조업체는 증류 모델 사용시 계산 부하가 적기 때문에 더 작은 비용을 청구하는 경우가 많다.

그러나 오픈 AI의 고드망 책임자는 “기업들이 여전히 높은 지능과 고위험군 작업에는 높은 수준의 정확성과 신뢰성을 위해 기꺼이 더 많은 비용을 지불할 의향이 있는 대규모 언어 모델을 필요로 한다”며 “또한 대규모 모델은 더 작은 기능으로 증류될 새로운 기능을 발견하기 위해 필요할 것”이라고 덧붙였다. 이런 가운데 오픈AI는 자사의 대형 모델이 경쟁기업의 경잰모델을 훈련시키기 위해 증류되는 것을 방지하는 것을 목표로 삼고 있다.

오픈AI는 자사 모델 사용을 모니터링하는 팀을 보유하고 있으며, 분명히 딥시크와 관련이 있다고 믿어지는 계정에서 행한 것과 마찬가지로 방대한 양의 데이터를 생성해 보내고 경쟁모델을 훈련시키고 있다고 의심되는 사용자에 대한 액세스를 제거할 수 있다. 하지만 이러한 조치의 대부분은 소급해 이뤄진다. 이 회사는 중국 딥시크가 지난 1월 출시해 화제를 모은 AI모델 R1이 실리콘 밸리에서 일반적으로 볼 수 있는 훈련 비용의 일부에 불과한 비용으로 자사 챗GPT 및 기타 비용이 많이 드는 시스템의 기능을 복제해 만들었다는 의혹을 갖고 있다.

기업용 빌딩 정보 검색 도구 스타트업인 컨텍스추얼 AI의 두웨 키엘라 최고경영자(CEO)는 “오픈 AI는 오랫동안 증류로부터 자신들을 보호하려고 노력해 왔지만, 이를 완전히 피하기는 매우 어렵다”고 말한다.

IBM의 콕스는 “모든 것이 너무 빨리 움직이는 세상에서...누군가는 실제로 많은 돈을 쓸 수 있고, 힘든 방법으로 그렇게 할 수 있으며, 그러면 이 분야의 나머지가 곧바로 뒤따라온다. 그래서 흥미롭기도 하고 방심할 수 없는 비즈니스 환경이다”라고 말했다.

#(지식)증류(knowledge distillation)#AI 민주화 #MS 파이(PHI)#깨달음의 순간(aha moment)#딥시크 R1-0 #메타 라마 #모델증류(Model Distillation)#얀 르쿤 메타 최고 AI 과학자 #오픈 AI #오픈AI 챗GPT-o1

이재구 기자

jklee@tech42.co.kr

기자의 다른 기사보기