구글 딥마인드, 행동 전 사고하는 AI 로봇 '제미나이 로보틱스 1.5' 공개

Google DeepMind announced Gemini Robotics 1.5 and Gemini Robotics-ER 1.5 models that enable the first robots to "think" before acting through generative AI systems. Gemini Robotics 1.5 is a vision-language-action (VLA) model that converts visual and text data into robot actions, while Gemini Robotics-ER 1.5 is an embodied reasoning (ER) model that generates steps needed to complete complex tasks. The ER model processes requests like laundry sorting along with environmental images and can call tools like Google Search to generate natural language instructions for specific steps the robot should follow. The action model Gemini Robotics 1.5 takes these instructions from the ER model and generates robot actions using visual input, while going through its own thinking process to consider how to approach each step. Both models are built on Gemini foundation models but fine-tuned with data adapting them to operate in physical spaces, enabling robots to undertake more complex multi-stage tasks with agentic capabilities. DeepMind tested the system with different machines like the two-armed Aloha 2 and humanoid Apollo, demonstrating that Gemini Robotics 1.5 can learn across different embodiments and transfer skills without specialized tuning. Currently, Gemini Robotics 1.5 that actually controls robots is available only to trusted testers, while the thinking ER model is rolling out in Google AI Studio for developers to generate robotic instructions for their own experiments.

구글 딥마인드가 행동하기 전에 '생각'하는 최초의 로봇을 구현하는 제미나이 로보틱스(Gemini Robotics) 1.5와 제미나이 로보틱스-ER 1.5 모델을 발표했다. 제미나이 로보틱스 1.5는 시각과 텍스트 데이터를 로봇 행동으로 변환하는 비전-언어-행동(VLA) 모델이며, 제미나이 로보틱스-ER 1.5는 복잡한 작업 완수를 위한 단계를 생성하는 체화 추론(ER) 모델이다. ER 모델은 세탁물 분류 요청 시 환경 이미지를 처리하고 구글 검색 등 도구를 활용해 로봇이 따라야 할 구체적 단계의 자연어 지시사항을 생성한다. 액션 모델인 제미나이 로보틱스 1.5는 ER 모델의 지시사항을 받아 시각 입력을 통해 로봇 행동을 생성하며, 각 단계에 접근하는 방법을 고려하는 자체 사고 과정을 거친다. 이 모델들은 제미나이 기반 모델에서 물리적 공간 작동에 맞게 파인튜닝되었으며, 로봇이 더 복잡한 다단계 작업을 수행할 수 있게 한다. 딥마인드 팀은 양팔 로봇 알로하2(Aloha 2)와 휴머노이드 아폴로(Apollo) 등 다양한 머신으로 테스트했으며, 전용 튜닝 없이도 서로 다른 로봇 형태 간 기술 전수가 가능함을 확인했다. 현재 실제 로봇을 제어하는 제미나이 로보틱스 1.5는 신뢰할 수 있는 테스터들에게만 제공되고 있으며, 사고하는 ER 모델은 구글 AI 스튜디오를 통해 개발자들에게 공개되고 있다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

앤트로픽, 새 모델 아닌 워크플로로 승부…'클로드 사이언스' 공개

앤트로픽이 새 모델이 아닌 작업 환경으로 과학자를 공략한다. 클로드 사이언스는 기존 클로드 모델로 60개 이상 데이터베이스를 연결하고, 팩트체크 AI로 인용과 계산을 검증한다.

구글, 4초 만에 이미지 만드는 '나노 바나나 2 라이트' 공개

구글이 가장 빠르고 저렴한 이미지 생성 모델 나노 바나나 2 라이트와 영상 생성·편집 모델 제미나이 옴니 플래시를 개발자에 공개했다. 이미지는 4초, 영상은 초당 약 155원으로 제작 가능하다.

수수료 없는 스테이블코인 '오픈USD' 출범...서클 USDC에 도전장

비자·스트라이프·코인베이스·마스터카드·블랙록 등 140여 개 기업이 준비금 수익을 나누는 새 스테이블코인 '오픈USD' 컨소시엄에 합류했다. 수수료·물량 한도 없이 올해 하반기 출시 예정.

앤트로픽, '클로드 소네트 5' 출시…에이전트 AI 정조준

앤트로픽이 자율 작업형 AI '클로드 소네트 5'를 공개했다. 무료·프로 기본 모델로 탑재되고, 가격은 오퍼스 4.8보다 저렴하다.