구글이 사용자 인터페이스와 직접 상호작용할 수 있는 제미나이 2.5 컴퓨터 유즈(Gemini 2.5 Computer Use) 모델을 공개 프리뷰로 출시했다.
이 모델은 제미나이 2.5 프로의 시각 이해와 추론 능력을 기반으로 웹페이지와 앱을 클릭, 입력, 스크롤하며 작동하는 AI 에이전트 구축을 지원한다. 온라인-마인드투웹(Online-Mind2Web), 웹보이저(WebVoyager), 안드로이드월드(AndroidWorld) 등 여러 벤치마크에서 경쟁 모델을 앞서며 가장 낮은 지연시간을 기록했다. 웹 브라우저 제어에 최적화됐으며 모바일 UI 제어에도 강력한 성능을 보이지만 데스크톱 OS 수준 제어는 아직 최적화되지 않았다.
구글은 프로젝트 마리너(Project Mariner), 파이어베이스 테스팅 에이전트(Firebase Testing Agent), AI 모드 검색 등 내부 제품에 이미 활용하고 있다. 개발자는 구글 AI 스튜디오와 버텍스 AI의 제미나이 API를 통해 이 기능에 접근할 수 있으며, 브라우저베이스(Browserbase)가 호스팅하는 데모 환경에서 즉시 테스트할 수 있다.
구글은 악의적 사용, 예상치 못한 모델 동작, 프롬프트 주입 공격 등의 위험에 대응하기 위해 안전 기능을 모델에 직접 학습시키고 개발자에게 단계별 안전 서비스와 시스템 지침을 제공한다.
