AI 코딩 전쟁' 앤스로픽이 웃었다…오픈AI·구글 제친 비결은

AI 스타트업 앤스로픽이 생성형 AI 시장에서 오픈AI, 구글과의 3파전에서 한 발 앞서 나갔다는 평가를 받고 있다. 24일(현지시간) 공개한 최신 모델 '클로드 오푸스 4.5'가 코딩 능력 평가에서 경쟁사 모델들을 모두 제쳤기 때문이다.

'80.9%' 벽을 넘은 첫 AI

업계가 주목하는 건 SWE-벤치 검증 테스트 결과다. 이 벤치마크는 실제 깃허브(GitHub)에 올라온 소프트웨어 버그를 AI가 얼마나 잘 고치는지 평가한다. 단순한 코드 생성이 아니라 '실전 디버깅 능력'을 측정하는 셈이다.

오푸스 4.5는 이 테스트에서 80.9%를 기록했다. 오픈AI의 최신 모델 GPT-5.1 코덱스 맥스(77.9%)와 구글 제미나이 3 프로(76.2%)를 3~5%포인트 차이로 앞선 수치다. 80%를 넘긴 건 오푸스 4.5가 처음이다.

앤스로픽 개발자 관계 책임자 알렉스 앨버트는 "모델이 그냥 이해한다(The model just gets it)"는 표현을 썼다. 복잡한 프롬프트 없이도 개발자가 의도한 바를 정확히 파악한다는 뜻이다.

가격은 낮추고, 성능은 높이고

놀라운 건 가격이다. 입력 100만 토큰당 5달러(약 7,350원), 출력 100만 토큰당 25달러(약 3만 6,750원)로 책정됐다. 이전 버전인 오푸스 4.1에 비해 67% 저렴해진 가격이다.

같은 성능이라면 가격 경쟁력이 관건인데, 앤스로픽은 '성능 향상+가격 인하'를 동시에 달성했다. 업계에서는 마이크로소프트와 엔비디아로부터 확보한 150억 달러(약 22조 원) 규모 투자금이 공격적 가격 전략을 가능하게 했다고 분석한다. 이 투자로 앤스로픽의 기업가치는 3,500억 달러(약 514조 원)로 급등했다.

컴퓨터를 직접 조작하는 AI

오푸스 4.5의 또 다른 강점은 'Computer Use(컴퓨터 사용)' 능력이다. OS월드(OSWorld) 테스트에서 66.3%를 기록하며 이 분야에서도 최고 성능을 입증했다.

Computer Use란 AI가 마우스와 키보드를 제어해 실제 컴퓨터 작업을 수행하는 기능이다. 예컨대 "이 데이터를 엑셀로 정리해"라고 명령하면 AI가 직접 엑셀을 열고, 데이터를 입력하고, 차트를 만드는 식이다.

앤스로픽은 이번 업데이트에서 크롬 확장 프로그램, 엑셀 통합, 데스크톱 앱 '클로드 코드' 등을 추가했다. 개발자가 아닌 일반 업무 사용자도 AI를 더 쉽게 활용할 수 있는 환경을 만든 것이다.

성능 엔지니어 채용 시험 통과

앤스로픽의 내부 테스트 결과도 화제다. 오푸스 4.5를 자사 '성능 엔지니어' 채용 시험에 응시시켰더니 역대 모든 인간 지원자보다 높은 점수를 받았다고 한다.

이는 단순 벤치마크를 넘어 실무 역량을 검증한 사례로 해석된다. 복잡한 시스템 버그를 스스로 진단하고 해결하는 능력이 일정 수준 이상임을 보여준다는 평가다.

보안도 강화…하지만 완벽하진 않다

AI 모델의 숙제 중 하나는 '프롬프트 인젝션 공격' 방어다. 악의적 사용자가 교묘한 명령어로 AI를 속여 엉뚱한 행동을 하도록 만드는 공격이다.

오푸스 4.5는 이런 공격을 95% 방어하는 것으로 나타났다. 업계 최고 수준이지만, 여전히 20번 중 1번은 뚫린다는 의미다. 앤스로픽 측은 "완벽한 방어는 없지만, 계속 개선하고 있다"고 밝혔다.

'에포트' 조절 기능 추가

개발자 입장에서 흥미로운 기능이 추가됐다. API에 '에포트(effort)' 파라미터가 생긴 것이다. 이는 AI가 문제를 풀 때 얼마나 '열심히' 고민할지 조절하는 옵션이다.

에포트를 낮추면 빠르고 저렴하게, 높이면 느리지만 정확하게 답을 낸다. 중간 수준 에포트에서도 이전 모델보다 토큰을 76% 덜 쓰면서 같은 성능을 낸다는 게 앤스로픽 설명이다.

두 달 만에 세 번째 주력 모델

앤스로픽의 행보는 파격적이다. 9월 소네트 4.5, 10월 하이쿠 4.5에 이어 11월 오푸스 4.5까지, 두 달 만에 세 번의 메이저 업데이트를 단행했다.

업계에서는 이를 'AI 군비경쟁'으로 표현한다. 오픈AI가 12월 GPT 계열 신모델을 예고하고, 구글이 제미나이 3를 내놓는 상황에서 앤스로픽이 선제 공격에 나선 것으로 해석된다.

한 AI 업계 관계자는 "이제 프런티어 모델(최첨단 AI) 경쟁이 일주일 단위로 격화되고 있다"며 "사용자 입장에서는 선택지가 늘어나지만, 개발사 입장에서는 개발 비용과 속도 부담이 커지는 구조"라고 말했다.

'AGI 경쟁' 막바지 수순?

일각에서는 이런 경쟁이 인공일반지능(AGI) 달성을 앞당기고 있다고 본다. 벤치마크 점수가 빠르게 올라가며 AI가 인간 전문가 수준에 근접하고 있기 때문이다.

하지만 회의적 시각도 있다. 벤치마크 점수와 실제 업무 활용도는 다르다는 지적이다. "80%가 넘었다고 해서 개발자를 대체할 수 있다는 건 아니다"는 것이다.

앤스로픽은 오푸스 4.5를 자사 앱, API, 아마존 AWS·구글 클라우드·마이크로소프트 애저 등 3대 클라우드에서 즉시 사용할 수 있도록 했다. 개발자 커뮤니티의 반응이 실제 성능 평가의 시금석이 될 전망이다.

정재엽 기자

anihil@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

"문서 지옥이 싫었다"…비전공 공무원 혼자서 쓴 공직사회 AI 혁신

광진구청 류승인 주무관이 개발한 HWP 파서 'kordoc'과 법령 검색 MCP 서버 'korean-law-mcp'가 공직사회 AI 혁신 사례로 화제다. 비전공자 공무원의 바텀업 혁신, 두 도구 모두 오픈소스 무료 공개.

채용 공고부터 추천까지 한 번에…AI로 묶은 ‘통합 채용 허브’ 등장

잡코리아가 AI 기반 통합 채용 솔루션 ‘하이어링 센터’를 공개했다. 채용 공고 등록부터 지원자 관리, 커뮤니케이션, 운영 관리까지 전 과정을 하나의 환경에서 처리할 수 있도록 설계된 것이 핵심이다.

‘링크의 시대’에서 ‘답변의 시대’로…구글 ‘서치 라이브’가 바꾸는 검색의 질서

서치 라이브는 검색 결과를 읽는 경험보다, 검색과 ‘대화하는’ 경험에 가깝다. 사용자는 구글 앱 안에서 음성으로 질문을 이어가고, 필요하면 카메라로 사물을 비추며 실시간 도움을 받을 수 있다. 이는 검색이 단발성 쿼리에서 벗어나 문맥을 유지하는 세션형 인터페이스로 이동하고 있음을 보여준다.

‘AI’를 향한 아마존의 거대한 ‘20년 승부수’

[AI요약] 20년전 생소한 개념의 클라우드 컴퓨팅 서비스인 AWS를 출시한 후, 해당 서비스를 인터넷 기반 도구에 의존하는 거의 모든 기업에게 필수불가결한...