AI 안전 블로거·분석가 즈비 모슈코비츠가 앤트로픽의 새 모델 '클로드 미토스 프리뷰'의 사이버보안 역량을 심층 분석한 글을 발표하며, 이를 "AI 시대의 진정한 사이버보안 대전환"이라고 평가했다.
미토스는 웹 브라우저에서 네 개의 취약점을 연쇄 결합하는 복잡한 공격 코드를 자율적으로 작성했으며, 보안 전문 훈련 없는 앤트로픽 엔지니어도 하룻밤 사이에 완전한 원격 코드 실행 공격 도구를 얻을 수 있었다. 성능 비교에서 취약점을 공격 코드로 전환하는 성공률이 소네트 4.6은 0%, 오퍼스 4.6은 1% 미만이었던 반면 미토스는 72.4%에 달해, 이전 모델과는 질적으로 다른 능력임이 드러났다.
미토스가 발견한 취약점 중 99% 이상이 아직 패치되지 않아, 앤트로픽은 보고가 몰리지 않도록 가장 심각한 것만 선별·공개하고 있으며 첫 보고 135일 후 전체 공개할 예정이다.
일부 보안 기업 에일(AISLE)이 "소형 오픈소스 모델로도 같은 취약점을 찾을 수 있다"고 주장했지만, 모슈코비츠는 이를 반박하며 소형 모델 실험이 이미 취약점 위치를 알고 시작한 것이어서 실제 발견 능력과는 다르다고 지적했다.
안전 연구자 라이언 그린블랫의 추산에 따르면 미토스 가중치(모델 데이터)가 유출될 경우 1000억~1조 달러 규모의 피해가 발생할 수 있으며, 모슈코비츠는 앤트로픽이 이 능력을 무기화하지 않고 방어에 활용한 결정을 "최악의 대안보다 훨씬 나은 선택"이라고 평가했다.
그는 미토스가 단순한 사이버보안 문제를 넘어 AI 자동화 연구개발과 초지능 출현에 한 발짝 다가선 신호라고 경고하며, 이 순간이 역사적으로 과소평가되고 있다고 강조했다.
