구글 딥마인드, 행동 전 사고하는 AI 로봇 '제미나이 로보틱스 1.5' 공개

Google DeepMind announced Gemini Robotics 1.5 and Gemini Robotics-ER 1.5 models that enable the first robots to "think" before acting through generative AI systems. Gemini Robotics 1.5 is a vision-language-action (VLA) model that converts visual and text data into robot actions, while Gemini Robotics-ER 1.5 is an embodied reasoning (ER) model that generates steps needed to complete complex tasks. The ER model processes requests like laundry sorting along with environmental images and can call tools like Google Search to generate natural language instructions for specific steps the robot should follow. The action model Gemini Robotics 1.5 takes these instructions from the ER model and generates robot actions using visual input, while going through its own thinking process to consider how to approach each step. Both models are built on Gemini foundation models but fine-tuned with data adapting them to operate in physical spaces, enabling robots to undertake more complex multi-stage tasks with agentic capabilities. DeepMind tested the system with different machines like the two-armed Aloha 2 and humanoid Apollo, demonstrating that Gemini Robotics 1.5 can learn across different embodiments and transfer skills without specialized tuning. Currently, Gemini Robotics 1.5 that actually controls robots is available only to trusted testers, while the thinking ER model is rolling out in Google AI Studio for developers to generate robotic instructions for their own experiments.

구글 딥마인드가 행동하기 전에 '생각'하는 최초의 로봇을 구현하는 제미나이 로보틱스(Gemini Robotics) 1.5와 제미나이 로보틱스-ER 1.5 모델을 발표했다. 제미나이 로보틱스 1.5는 시각과 텍스트 데이터를 로봇 행동으로 변환하는 비전-언어-행동(VLA) 모델이며, 제미나이 로보틱스-ER 1.5는 복잡한 작업 완수를 위한 단계를 생성하는 체화 추론(ER) 모델이다. ER 모델은 세탁물 분류 요청 시 환경 이미지를 처리하고 구글 검색 등 도구를 활용해 로봇이 따라야 할 구체적 단계의 자연어 지시사항을 생성한다. 액션 모델인 제미나이 로보틱스 1.5는 ER 모델의 지시사항을 받아 시각 입력을 통해 로봇 행동을 생성하며, 각 단계에 접근하는 방법을 고려하는 자체 사고 과정을 거친다. 이 모델들은 제미나이 기반 모델에서 물리적 공간 작동에 맞게 파인튜닝되었으며, 로봇이 더 복잡한 다단계 작업을 수행할 수 있게 한다. 딥마인드 팀은 양팔 로봇 알로하2(Aloha 2)와 휴머노이드 아폴로(Apollo) 등 다양한 머신으로 테스트했으며, 전용 튜닝 없이도 서로 다른 로봇 형태 간 기술 전수가 가능함을 확인했다. 현재 실제 로봇을 제어하는 제미나이 로보틱스 1.5는 신뢰할 수 있는 테스터들에게만 제공되고 있으며, 사고하는 ER 모델은 구글 AI 스튜디오를 통해 개발자들에게 공개되고 있다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

“몸값 3조 육박, K-엔비디아 떴다”… 리벨리온, 4억 달러 유치하며 미국 정조준

국내 AI 반도체 스타트업 리벨리온이 4억 달러(약 6,000억 원) 규모의 대규모 투자 유치에 성공하며 글로벌 시장 진출을 위한 ‘실탄’을 확보했다.

블루스카이 AI 도입에 유저 12만 명 ‘집단 차단’

탈(脫)중앙화 소셜미디어 블루스카이가 선보인 인공지능(AI) 비서 ‘아티(Attie)’가 출시와 동시에 사용자들의 거센 역풍을 맞고 있다.

"미국인 80% AI 우려, Z세대 가장 비관적"...미국 설문조사 결과

퀴니피액 대학 여론조사에서 미국인의 AI 활용률은 높아졌지만 신뢰도는 21%에 그쳤고, 70%는 AI가 일자리를 줄일 것으로 우려했다. Z세대의 비관론이 가장 강했다.

코파일럿 코워크, MS 프런티어 프로그램 통해 첫 공개…앤트 로픽 기술 탑재

마이크로소프트가 앤스로픽과 협력해 개발한 AI 업무 자동화 기능 '코파일럿 코워크'를 프런티어 조기 체험 프로그램으로 공개했다. 사용자가 목표를 설명하면 AI가 계획을 세우고 마이크로소프트 365 전반에서 작업을 직접 수행한다.