
AI 스타트업 앤스로픽이 생성형 AI 시장에서 오픈AI, 구글과의 3파전에서 한 발 앞서 나갔다는 평가를 받고 있다. 24일(현지시간) 공개한 최신 모델 '클로드 오푸스 4.5'가 코딩 능력 평가에서 경쟁사 모델들을 모두 제쳤기 때문이다.
'80.9%' 벽을 넘은 첫 AI
업계가 주목하는 건 SWE-벤치 검증 테스트 결과다. 이 벤치마크는 실제 깃허브(GitHub)에 올라온 소프트웨어 버그를 AI가 얼마나 잘 고치는지 평가한다. 단순한 코드 생성이 아니라 '실전 디버깅 능력'을 측정하는 셈이다.
오푸스 4.5는 이 테스트에서 80.9%를 기록했다. 오픈AI의 최신 모델 GPT-5.1 코덱스 맥스(77.9%)와 구글 제미나이 3 프로(76.2%)를 3~5%포인트 차이로 앞선 수치다. 80%를 넘긴 건 오푸스 4.5가 처음이다.
앤스로픽 개발자 관계 책임자 알렉스 앨버트는 "모델이 그냥 이해한다(The model just gets it)"는 표현을 썼다. 복잡한 프롬프트 없이도 개발자가 의도한 바를 정확히 파악한다는 뜻이다.
가격은 낮추고, 성능은 높이고
놀라운 건 가격이다. 입력 100만 토큰당 5달러(약 7,350원), 출력 100만 토큰당 25달러(약 3만 6,750원)로 책정됐다. 이전 버전인 오푸스 4.1에 비해 67% 저렴해진 가격이다.
같은 성능이라면 가격 경쟁력이 관건인데, 앤스로픽은 '성능 향상+가격 인하'를 동시에 달성했다. 업계에서는 마이크로소프트와 엔비디아로부터 확보한 150억 달러(약 22조 원) 규모 투자금이 공격적 가격 전략을 가능하게 했다고 분석한다. 이 투자로 앤스로픽의 기업가치는 3,500억 달러(약 514조 원)로 급등했다.
컴퓨터를 직접 조작하는 AI
오푸스 4.5의 또 다른 강점은 'Computer Use(컴퓨터 사용)' 능력이다. OS월드(OSWorld) 테스트에서 66.3%를 기록하며 이 분야에서도 최고 성능을 입증했다.
Computer Use란 AI가 마우스와 키보드를 제어해 실제 컴퓨터 작업을 수행하는 기능이다. 예컨대 "이 데이터를 엑셀로 정리해"라고 명령하면 AI가 직접 엑셀을 열고, 데이터를 입력하고, 차트를 만드는 식이다.
앤스로픽은 이번 업데이트에서 크롬 확장 프로그램, 엑셀 통합, 데스크톱 앱 '클로드 코드' 등을 추가했다. 개발자가 아닌 일반 업무 사용자도 AI를 더 쉽게 활용할 수 있는 환경을 만든 것이다.
성능 엔지니어 채용 시험 통과
앤스로픽의 내부 테스트 결과도 화제다. 오푸스 4.5를 자사 '성능 엔지니어' 채용 시험에 응시시켰더니 역대 모든 인간 지원자보다 높은 점수를 받았다고 한다.
이는 단순 벤치마크를 넘어 실무 역량을 검증한 사례로 해석된다. 복잡한 시스템 버그를 스스로 진단하고 해결하는 능력이 일정 수준 이상임을 보여준다는 평가다.
보안도 강화…하지만 완벽하진 않다
AI 모델의 숙제 중 하나는 '프롬프트 인젝션 공격' 방어다. 악의적 사용자가 교묘한 명령어로 AI를 속여 엉뚱한 행동을 하도록 만드는 공격이다.
오푸스 4.5는 이런 공격을 95% 방어하는 것으로 나타났다. 업계 최고 수준이지만, 여전히 20번 중 1번은 뚫린다는 의미다. 앤스로픽 측은 "완벽한 방어는 없지만, 계속 개선하고 있다"고 밝혔다.
'에포트' 조절 기능 추가
개발자 입장에서 흥미로운 기능이 추가됐다. API에 '에포트(effort)' 파라미터가 생긴 것이다. 이는 AI가 문제를 풀 때 얼마나 '열심히' 고민할지 조절하는 옵션이다.
에포트를 낮추면 빠르고 저렴하게, 높이면 느리지만 정확하게 답을 낸다. 중간 수준 에포트에서도 이전 모델보다 토큰을 76% 덜 쓰면서 같은 성능을 낸다는 게 앤스로픽 설명이다.
두 달 만에 세 번째 주력 모델
앤스로픽의 행보는 파격적이다. 9월 소네트 4.5, 10월 하이쿠 4.5에 이어 11월 오푸스 4.5까지, 두 달 만에 세 번의 메이저 업데이트를 단행했다.
업계에서는 이를 'AI 군비경쟁'으로 표현한다. 오픈AI가 12월 GPT 계열 신모델을 예고하고, 구글이 제미나이 3를 내놓는 상황에서 앤스로픽이 선제 공격에 나선 것으로 해석된다.
한 AI 업계 관계자는 "이제 프런티어 모델(최첨단 AI) 경쟁이 일주일 단위로 격화되고 있다"며 "사용자 입장에서는 선택지가 늘어나지만, 개발사 입장에서는 개발 비용과 속도 부담이 커지는 구조"라고 말했다.
'AGI 경쟁' 막바지 수순?
일각에서는 이런 경쟁이 인공일반지능(AGI) 달성을 앞당기고 있다고 본다. 벤치마크 점수가 빠르게 올라가며 AI가 인간 전문가 수준에 근접하고 있기 때문이다.
하지만 회의적 시각도 있다. 벤치마크 점수와 실제 업무 활용도는 다르다는 지적이다. "80%가 넘었다고 해서 개발자를 대체할 수 있다는 건 아니다"는 것이다.
앤스로픽은 오푸스 4.5를 자사 앱, API, 아마존 AWS·구글 클라우드·마이크로소프트 애저 등 3대 클라우드에서 즉시 사용할 수 있도록 했다. 개발자 커뮤니티의 반응이 실제 성능 평가의 시금석이 될 전망이다.
