AI 에이전트 비용 폭탄, 기업들의 지갑을 노린다

  • 토큰 소비 24배 증가 전망 속 가격 인상 러시
  • 국내 플랫폼은 '무료 온보딩' 카드

서울의 한 스타트업 대표는 최근 경악스러운 청구서를 받았다. 불과 3개월 전만 해도 월 200만원 수준이던 AI 서비스 비용이 어느새 800만원을 넘어섰다. 코딩 보조 에이전트와 고객응대 챗봇을 동시에 돌리면서 '토큰 사용량'이 급증한 탓이다. 그는 "처음엔 비용 절감 효과를 보려고 도입했는데, 이젠 오히려 인건비보다 AI 비용이 더 나간다"며 난감해했다.

026년 AI 에이전틱(Agentic AI) 시장의 현주소다. 자율적으로 작업을 수행하는 AI 에이전트는 생산성 혁신의 주역으로 떠올랐지만, 그 이면에는 급증하는 비용 부담이라는 복병이 도사리고 있다.
기업의 AI 에이전틱 활용은 선택이 아닌 필수가 되었다. (사진=생성형 AI)

2026년 AI 에이전틱(Agentic AI) 시장의 현주소다. 자율적으로 작업을 수행하는 AI 에이전트는 생산성 혁신의 주역으로 떠올랐지만, 그 이면에는 급증하는 비용 부담이라는 복병이 도사리고 있다.

■ 2030년까지 토큰 소비 120조 단위로

골드만삭스는 최근 보고서에서 AI 에이전트 도입이 본격화되면 2030년까지 토큰 소비가 현재의 24배 수준인 월 120조(quadrillion)개에 달할 것으로 전망했다. 단순 질의응답을 넘어 수십 단계의 작업을 반복 수행하는 에이전트 특성상, 한 번의 요청이 기존 챗봇 대비 10배에서 50배까지 더 많은 토큰을 소모하기 때문이다.

문제는 이러한 수요 폭증이 가격 인상으로 이어지고 있다는 점이다. 2026년 5월 기준, 주요 AI 공급사들은 복잡한 다층 가격 체계로 실질 비용을 끌어올렸다. 앤트로픽의 Claude Opus 4.7은 백만 토큰당 입력 5달러, 출력 25달러를 부과하며, 빠른 응답을 원하면 6배 요금을 추가로 물린다. 오픈AI의 GPT-5.5는 입력 토큰이 27만2000개를 넘으면 전체 세션에 2배 요금을 소급 적용한다. 구글 제미나이 3.1 Pro는 20만 토큰을 기준으로 가격이 계단식으로 오른다.

업계 분석에 따르면, 공급사들은 초기 채택을 유도하기 위해 2~7.5배 할인을 제공하다가 프로모션 종료 후 가격을 2~3배 인상하는 패턴을 반복하고 있다. 2026년 5월에도 여러 프로모션이 만료되면서 기업들의 실질 부담이 급증했다.

■ 우버, 마이크로소프트도 'AI 비용' 제동

기업들의 AI 비용 부담은 이미 현실화되고 있다. 우버는 2026년 AI 예산을 불과 몇 달 만에 모두 소진해 버렸다. 우버의 운영 책임자는 "토큰 사용량과 실제 소비자 가치 간 상관관계를 찾기 어렵다"며 AI 지출에 제동을 걸었다.

마이크로소프트는 개발자들의 'Claude Code' 접근 권한을 회수하고 자체 'Copilot CLI' 도구로 전환을 강제했다. 공식적으로는 내부 도구 통합이라지만, 6월 30일이라는 시점이 회계연도 말과 맞물리면서 비용 절감 압박이 작용했다는 분석이 나온다.

앤트로픽은 2026년 4월부터 프로(Pro)와 맥스(Max) 구독 모델에서 무제한 사용을 폐지하고 사용량 기반 과금으로 전환했다. 특히 제3자 프레임워크를 통한 에이전트 작업은 더 이상 정액제로 커버되지 않고 표준 API 요금이 부과된다. 기업 고객들은 예측 가능했던 월정액 대신 변동성 높은 종량제 청구서를 받게 됐다.

■ 혼합형 가격 모델 95%로 보편화

AI 에이전트 가격 모델은 급속도로 표준화되고 있다. 2026년 조사에 따르면 AI 에이전트 기업의 95%가 구독료와 사용량 과금을 결합한 혼합형 모델을 채택했다. 사용량 기반 과금은 91.3%로 확산됐고, 구독형 정액제는 71.3%가 여전히 유지하고 있다.

반면 성과 기반(Outcome-based) 가격 정책은 겨우 3.8%에 그쳤다. 이론적으론 고객 가치와 직접 연동되지만, 성과를 정의하고 측정하는 인프라 구축이 어렵기 때문이다. 인터컴(Intercom)의 Fin처럼 상담 완료 건당 과금하는 사례는 소수에 불과하다.

흥미로운 점은 무료 체험과 프리미엄 모델이 성장 전략을 넘어 기본 전제로 자리 잡았다는 사실이다. 기업들은 더 이상 가격 모델 자체로 고민하지 않는다. 문제는 실행이다. 레거시 청구 시스템, 운영 마찰, 적정 요율 산정 노하우 부족이 실질적 장벽으로 작용한다.

■ 국내 플랫폼, '무료 온보딩'으로 차별화

글로벌 공급사들이 가격을 올리는 동안, 국내 플랫폼들은 정반대 전략을 펼친다. 네이버와 카카오는 5000만 이용자 전원을 AI 에이전트에 '무료로 온보딩'시키겠다는 포부를 밝혔다.

카카오는 단일 거대 모델 대신 경량 오케스트레이터와 도메인 특화 에이전트를 조합한 분산 구조로 토큰 소비를 획기적으로 줄였다. 자체 개발한 '카나나 토크나이저'는 한국어 처리 시 토큰 수를 40% 줄이고 추론 속도를 60% 높여 비용 효율성을 확보했다.

Kanana-0 활용예시. (사진=카카오)

'카나나 인 카카오톡'은 이용자의 70%가 AI의 선제 제안에 긍정 반응을 보였고, 응답 만족도는 80%에 달했다. 카카오는 연말까지 3100만명이 서비스를 사용할 것으로 전망하며, 하반기부터 대화 속 결제까지 완료하는 에이전트 커머스를 본격화한다.

네이버는 '실행형 AI'를 목표로 쇼핑과 식당 예약을 시작으로 AI탭을 확장한다. 에이전트 추천이 실제 구매와 예약으로 전환되는 비율을 핵심 지표로 삼고, 5월부터 멤버십·N배송·선물하기를 에이전트와 결합해 수익성을 높인다. 광고 부문에서는 초대규모 통합 추천 모델을 학습시켜 타겟팅을 고도화하고, 2분기부터 생성형 AI 광고를 테스트해 3분기 수익화를 노린다.

■ 비용 디플레이션 vs 비용 인플레이션의 역설

AI 기술 자체는 급격한 비용 디플레이션을 겪고 있다. 2024년 수백만 달러가 들던 최첨단 모델이 2025년엔 30달러로 재현됐다. 99.99% 이상의 비용 절감이다. 하지만 이런 기술 발전이 사용자 비용 절감으로 이어지지 않는다.

오히려 에이전트의 자율 작업 특성상 토큰 소비가 폭증하면서, 기업들은 예상치 못한 청구서를 받는다. 한 분석에 따르면 에이전트 기반 작업은 일반 챗봇 대비 최대 1000배 더 많은 토큰을 소모할 수 있다.

결국 AI 비용 구조는 이중성을 띤다. 공급 측면에선 한계비용이 제로로 수렴하지만, 수요 측면에선 사용량 폭증으로 총비용이 급증한다. 이 간극에서 공급사들은 복잡한 가격 체계로 수익을 극대화하고, 기업들은 예측 불가능한 지출에 시달린다.

■ 2026년 하반기, 승부는 '효율'에서 갈린다

국내 증권가는 네이버와 카카오의 하반기 승부처를 AI 수익화로 본다. 광고 단가 상승, 거래액 확대, 영업이익률 방어가 핵심 지표다. 네이버는 AI 브리핑 광고를 2분기 테스트 후 3분기부터 본격 수익화하고, 카카오는 톡 내 대화에서 결제까지 완료되는 구조로 수수료 수익을 창출한다.

글로벌 기업들은 비용 통제에 집중한다. 경량 모델로 루틴 작업을 처리하고, 프롬프트 캐싱과 배치 API로 토큰 소비를 줄이며, 지출 한도를 설정한다. AI 비용을 관리 대상 역량으로 취급하지 않으면 예산 폭탄을 피할 수 없다.

AI 에이전트 시대는 이미 도래했다. 2026년 하반기, 기업들은 두 갈래 길에 섰다. 비용 폭탄을 감수하며 혁신을 추구할 것인가, 아니면 효율을 극대화하며 점진적으로 확장할 것인가. 답은 아직 명확하지 않지만, 한 가지는 분명하다. AI 비용은 더 이상 무시할 수 없는 경영 변수가 됐다.

김광우 기자

kimnoba@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

"여보, 나야" 3초면 가족 목소리 완성… 보이스피싱, 사상 첫 1조 원 넘었다

3초짜리 음성 한 토막이면 AI가 가족 목소리를 흉내 내는 시대. 2025년 보이스피싱 피해액은 사상 처음 1조 566억 원을 돌파했고, 그중 기관사칭형이 77%를 차지했다. 행안부·국과수가 6·3 지방선거에 투입한 정확도 92% 딥페이크 탐지 모델, 7개월 연속 감소세를 보인 2026년 통계, 그리고 가족이 지금 당장 만들 수 있는 '비상용 단어'까지 짚는다.

카스퍼스키 “안드로이드 뱅킹 트로이목마 공격 56% 증가”

모바일 금융 서비스를 노린 악성코드 위협이 빠르게 확대되고 있다. 스마트폰이 뱅킹, 전자결제, 신용카드 인증 등 일상적인 금융 활동의 중심 기기로 자리 잡으면서, 안드로이드 기기를 겨냥한 뱅킹 트로이목마 공격도 증가세를 보이고 있다.

"명상, 이렇게 하는 거였나"…AI·XR 결합 1인 명상부스 '무아홈' 체험기

AI가 감정을 읽고 맞춤 명상을 추천하는 1인 명상부스 '무아홈'을 직접 체험했다. 카이스트 공동 개발 감정추론 AI, 비접촉 생체 측정, XR 명상까지. 스트레스 올랐지만, 가능성은 충분했다.

"AI 4개에 라디오 방송국 맡겼더니…GPT는 안정적, 클로드는 하차 선언"

AI 4개가 라디오 방송국을 6개월간 자율 운영한 실험 결과. 클로드는 하차 선언, 그록은 환각 스폰서, 제미나이는 같은 말 반복. 앤던랩스의 AI 에이전트 자율경영 실험을 분석한다.