AI 코딩 전쟁' 앤스로픽이 웃었다…오픈AI·구글 제친 비결은

AI 스타트업 앤스로픽이 생성형 AI 시장에서 오픈AI, 구글과의 3파전에서 한 발 앞서 나갔다는 평가를 받고 있다. 24일(현지시간) 공개한 최신 모델 '클로드 오푸스 4.5'가 코딩 능력 평가에서 경쟁사 모델들을 모두 제쳤기 때문이다.

'80.9%' 벽을 넘은 첫 AI

업계가 주목하는 건 SWE-벤치 검증 테스트 결과다. 이 벤치마크는 실제 깃허브(GitHub)에 올라온 소프트웨어 버그를 AI가 얼마나 잘 고치는지 평가한다. 단순한 코드 생성이 아니라 '실전 디버깅 능력'을 측정하는 셈이다.

오푸스 4.5는 이 테스트에서 80.9%를 기록했다. 오픈AI의 최신 모델 GPT-5.1 코덱스 맥스(77.9%)와 구글 제미나이 3 프로(76.2%)를 3~5%포인트 차이로 앞선 수치다. 80%를 넘긴 건 오푸스 4.5가 처음이다.

앤스로픽 개발자 관계 책임자 알렉스 앨버트는 "모델이 그냥 이해한다(The model just gets it)"는 표현을 썼다. 복잡한 프롬프트 없이도 개발자가 의도한 바를 정확히 파악한다는 뜻이다.

가격은 낮추고, 성능은 높이고

놀라운 건 가격이다. 입력 100만 토큰당 5달러(약 7,350원), 출력 100만 토큰당 25달러(약 3만 6,750원)로 책정됐다. 이전 버전인 오푸스 4.1에 비해 67% 저렴해진 가격이다.

같은 성능이라면 가격 경쟁력이 관건인데, 앤스로픽은 '성능 향상+가격 인하'를 동시에 달성했다. 업계에서는 마이크로소프트와 엔비디아로부터 확보한 150억 달러(약 22조 원) 규모 투자금이 공격적 가격 전략을 가능하게 했다고 분석한다. 이 투자로 앤스로픽의 기업가치는 3,500억 달러(약 514조 원)로 급등했다.

컴퓨터를 직접 조작하는 AI

오푸스 4.5의 또 다른 강점은 'Computer Use(컴퓨터 사용)' 능력이다. OS월드(OSWorld) 테스트에서 66.3%를 기록하며 이 분야에서도 최고 성능을 입증했다.

Computer Use란 AI가 마우스와 키보드를 제어해 실제 컴퓨터 작업을 수행하는 기능이다. 예컨대 "이 데이터를 엑셀로 정리해"라고 명령하면 AI가 직접 엑셀을 열고, 데이터를 입력하고, 차트를 만드는 식이다.

앤스로픽은 이번 업데이트에서 크롬 확장 프로그램, 엑셀 통합, 데스크톱 앱 '클로드 코드' 등을 추가했다. 개발자가 아닌 일반 업무 사용자도 AI를 더 쉽게 활용할 수 있는 환경을 만든 것이다.

성능 엔지니어 채용 시험 통과

앤스로픽의 내부 테스트 결과도 화제다. 오푸스 4.5를 자사 '성능 엔지니어' 채용 시험에 응시시켰더니 역대 모든 인간 지원자보다 높은 점수를 받았다고 한다.

이는 단순 벤치마크를 넘어 실무 역량을 검증한 사례로 해석된다. 복잡한 시스템 버그를 스스로 진단하고 해결하는 능력이 일정 수준 이상임을 보여준다는 평가다.

보안도 강화…하지만 완벽하진 않다

AI 모델의 숙제 중 하나는 '프롬프트 인젝션 공격' 방어다. 악의적 사용자가 교묘한 명령어로 AI를 속여 엉뚱한 행동을 하도록 만드는 공격이다.

오푸스 4.5는 이런 공격을 95% 방어하는 것으로 나타났다. 업계 최고 수준이지만, 여전히 20번 중 1번은 뚫린다는 의미다. 앤스로픽 측은 "완벽한 방어는 없지만, 계속 개선하고 있다"고 밝혔다.

'에포트' 조절 기능 추가

개발자 입장에서 흥미로운 기능이 추가됐다. API에 '에포트(effort)' 파라미터가 생긴 것이다. 이는 AI가 문제를 풀 때 얼마나 '열심히' 고민할지 조절하는 옵션이다.

에포트를 낮추면 빠르고 저렴하게, 높이면 느리지만 정확하게 답을 낸다. 중간 수준 에포트에서도 이전 모델보다 토큰을 76% 덜 쓰면서 같은 성능을 낸다는 게 앤스로픽 설명이다.

두 달 만에 세 번째 주력 모델

앤스로픽의 행보는 파격적이다. 9월 소네트 4.5, 10월 하이쿠 4.5에 이어 11월 오푸스 4.5까지, 두 달 만에 세 번의 메이저 업데이트를 단행했다.

업계에서는 이를 'AI 군비경쟁'으로 표현한다. 오픈AI가 12월 GPT 계열 신모델을 예고하고, 구글이 제미나이 3를 내놓는 상황에서 앤스로픽이 선제 공격에 나선 것으로 해석된다.

한 AI 업계 관계자는 "이제 프런티어 모델(최첨단 AI) 경쟁이 일주일 단위로 격화되고 있다"며 "사용자 입장에서는 선택지가 늘어나지만, 개발사 입장에서는 개발 비용과 속도 부담이 커지는 구조"라고 말했다.

'AGI 경쟁' 막바지 수순?

일각에서는 이런 경쟁이 인공일반지능(AGI) 달성을 앞당기고 있다고 본다. 벤치마크 점수가 빠르게 올라가며 AI가 인간 전문가 수준에 근접하고 있기 때문이다.

하지만 회의적 시각도 있다. 벤치마크 점수와 실제 업무 활용도는 다르다는 지적이다. "80%가 넘었다고 해서 개발자를 대체할 수 있다는 건 아니다"는 것이다.

앤스로픽은 오푸스 4.5를 자사 앱, API, 아마존 AWS·구글 클라우드·마이크로소프트 애저 등 3대 클라우드에서 즉시 사용할 수 있도록 했다. 개발자 커뮤니티의 반응이 실제 성능 평가의 시금석이 될 전망이다.

정재엽 기자

anihil@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

[인터뷰] 조창현 원셀프월드 대표 “웹3 기반 초개인화 데이터를 확보하는 디지털 지갑을 만들었습니다”

테크42와 만난 조창현 원셀프월드 대표는 “‘온체인 데이터 플랫폼’이자 대중적이고 쉬운 웹3 서비스를 만들고 있다”고 설명했다. 결제가 바뀌는 시대, 디지털 지갑은 단순한 결제 수단에 머물까, 아니면 개인이 데이터를 들고 이동하는 새로운 인터페이스가 될까. 원셀프월드가 제시하는 초개인화 데이터 기반 디지털 지갑에 대해 좀 더 자세히 알아봤다. (사진=테크42)

[위클리 AI] 메타 클라우드 진출, 클로드 소네트 5·나노바나나까지, 7월 첫 주 총정리

7월 첫 주 AI 업계 소식을 정리했다. 앤트로픽 페이블5 전 세계 재개와 미토스5 제한 지속, 클로드 소네트5, 오픈AI GPT-5.6, 구글 나노바나나, 메타 클라우드 진출, 퀄컴 모듈러 인수까지 위클리 AI로 확인하세요.

맥까지 넓어진 침해사고 대응…마에스트로 포렌식, ‘마에스트로위즈덤’ 세미나 개최

마에스트로 포렌식은 지난 1일 서울 독산동 인섹시큐리티 서울 독산 교육센터에서 ‘마에스트로 위즈덤(MAESTRO WiSDOM) 맥 포렌식 세미나’를 열고, macOS 환경의 증거 수집과 침해사고 대응 절차를 공유했다고 2일 밝혔다.

세일즈포스, AI 고객서비스 ‘성과 과금’ 실험 본격화…에이전트포스 헬프 에이전트 공개

세일즈포스는 고객서비스용 AI 에이전트 구축과 운영을 지원하는 ‘에이전트포스 헬프 에이전트(Agentforce Help Agent)’를 공개했다고 2일 밝혔다.