구글 딥마인드가 로봇이 물리적 환경을 더 정밀하게 이해하고 판단할 수 있도록 설계된 AI 모델 '제미나이 로보틱스-ER 1.6(Gemini Robotics-ER 1.6)'을 공개하고, 같은 날 제미나이 API와 구글 AI 스튜디오를 통해 개발자에게 제공하기 시작했다.
이 모델은 공간 추론, 작업 계획, 작업 완료 여부 감지 등 로봇에 특화된 추론 기능을 전작인 ER 1.5와 제미나이 3.0 플래시 대비 전 영역에서 크게 개선했다.
특히 이번 버전에서 새로 추가된 '계기 판독' 기능은 보스턴 다이내믹스와의 협력으로 발굴된 기능으로, 로봇이 압력계·액위계·디지털 계기판 등 산업 현장의 각종 계기를 스스로 읽고 해석할 수 있게 해준다. 계기 판독 성능 테스트에서 ER 1.5가 성공률 23%에 그친 반면, ER 1.6은 86%, '에이전틱 비전' 적용 시 93%를 기록했다.
보스턴 다이내믹스의 로봇 스팟이 현장을 순회하며 촬영한 계기 이미지를 ER 1.6이 분석하는 방식으로 실제 산업 현장에 적용된다. 안전성 측면에서도 이전 세대 모델 대비 물리적 제약 준수 능력이 크게 향상됐으며, 텍스트 기반 부상 위험 인식에서 제미나이 3.0 플래시보다 6%, 영상 기반에서는 10% 높은 성능을 보였다.
딥마인드는 특정 분야에서 성능이 부족한 경우 레이블링된 이미지 10~50장을 제출하면 협력해 기능을 개선하겠다고 밝히며 로봇공학 커뮤니티와의 적극적인 협업 의사를 드러냈다.
