Google DeepMind announced Gemini Robotics 1.5 and Gemini Robotics-ER 1.5 models that enable the first robots to "think" before acting through generative AI systems. Gemini Robotics 1.5 is a vision-language-action (VLA) model that converts visual and text data into robot actions, while Gemini Robotics-ER 1.5 is an embodied reasoning (ER) model that generates steps needed to complete complex tasks. The ER model processes requests like laundry sorting along with environmental images and can call tools like Google Search to generate natural language instructions for specific steps the robot should follow. The action model Gemini Robotics 1.5 takes these instructions from the ER model and generates robot actions using visual input, while going through its own thinking process to consider how to approach each step. Both models are built on Gemini foundation models but fine-tuned with data adapting them to operate in physical spaces, enabling robots to undertake more complex multi-stage tasks with agentic capabilities. DeepMind tested the system with different machines like the two-armed Aloha 2 and humanoid Apollo, demonstrating that Gemini Robotics 1.5 can learn across different embodiments and transfer skills without specialized tuning. Currently, Gemini Robotics 1.5 that actually controls robots is available only to trusted testers, while the thinking ER model is rolling out in Google AI Studio for developers to generate robotic instructions for their own experiments.
구글 딥마인드가 행동하기 전에 '생각'하는 최초의 로봇을 구현하는 제미나이 로보틱스(Gemini Robotics) 1.5와 제미나이 로보틱스-ER 1.5 모델을 발표했다. 제미나이 로보틱스 1.5는 시각과 텍스트 데이터를 로봇 행동으로 변환하는 비전-언어-행동(VLA) 모델이며, 제미나이 로보틱스-ER 1.5는 복잡한 작업 완수를 위한 단계를 생성하는 체화 추론(ER) 모델이다. ER 모델은 세탁물 분류 요청 시 환경 이미지를 처리하고 구글 검색 등 도구를 활용해 로봇이 따라야 할 구체적 단계의 자연어 지시사항을 생성한다. 액션 모델인 제미나이 로보틱스 1.5는 ER 모델의 지시사항을 받아 시각 입력을 통해 로봇 행동을 생성하며, 각 단계에 접근하는 방법을 고려하는 자체 사고 과정을 거친다. 이 모델들은 제미나이 기반 모델에서 물리적 공간 작동에 맞게 파인튜닝되었으며, 로봇이 더 복잡한 다단계 작업을 수행할 수 있게 한다. 딥마인드 팀은 양팔 로봇 알로하2(Aloha 2)와 휴머노이드 아폴로(Apollo) 등 다양한 머신으로 테스트했으며, 전용 튜닝 없이도 서로 다른 로봇 형태 간 기술 전수가 가능함을 확인했다. 현재 실제 로봇을 제어하는 제미나이 로보틱스 1.5는 신뢰할 수 있는 테스터들에게만 제공되고 있으며, 사고하는 ER 모델은 구글 AI 스튜디오를 통해 개발자들에게 공개되고 있다.
