메뉴
BL
The Decoder 43일 전

구글 딥마인드, 로봇 계획·인지 능력 강화

IMP
7/10
핵심 요약

구글 딥마인드가 로봇의 고수준 인지 및 작업 계획을 돕는 'Gemini Robotics-ER 1.6'을 공개했습니다. 이 모델은 구글 검색이나 비전-언어-액션(VLA) 모델을 연동하여 작은 계기판의 숫자까지 정밀하게 판독하는 등 복잡한 환경에서의 추론 능력을 대폭 향상시켰습니다. 보스턴 다이내믹스의 Spot 로봇에 적용되어 실제 시스템 검사에 활용될 만큼 높은 실용성을 입증했다는 점이 핵심입니다.

번역된 본문

구글 딥마인드(Google Deepmind)가 로봇의 구체화된 추론(embodied reasoning)을 위한 업그레이드된 모델인 'Gemini Robotics-ER 1.6'을 공개했습니다. 이 모델은 로봇이 주변 환경을 이해하고 스스로 작업을 계획할 수 있도록 돕는 고수준 사고 레이어 역할을 하며, 필요할 경우 구글 검색(Google Search)이나 비전-언어-액션 모델(vision-language-action models) 같은 도구를 활용합니다.

딥마인드에 따르면, 새로운 버전은 물체를 가리키기, 개수 세기, 작업의 성공적인 완료 인식 등의 측면에서 기존의 Gemini Robotics-ER 1.5 및 Gemini 3.0 Flash보다 뛰어난 성능을 보여줍니다. 특히 보스턴 다이내믹스(Boston Dynamics)와의 협력을 통해 개발된 압력 게이지나 레벨 게이지(sight glasses)와 같은 기기 판독 능력 역시 크게 향상되었습니다.

이 모델은 에이전트 기반 이미지 처리(Agentic image processing)를 코드 실행과 결합합니다. 작은 디스플레이 세부 사항을 확인하기 위해 이미지를 확대하고, 포인팅 기능과 코드를 사용하여 비율을 계산 및 거리를 측정한 뒤, 세계 지식(world knowledge)을 적용해 해당 수치를 해석하는 방식입니다. 보스턴 다이내믹스의 Spot 로봇이 시스템 검사에 이 기능을 활용하는 것으로 알려졌습니다.

해당 모델은 개발자를 위한 Colab 예제와 함께 Gemini API 및 Google AI Studio를 통해 사용할 수 있습니다.

원문 보기
원문 보기 (영어)
Google Deepmind's Gemini Robotics-ER 1.6 gives robots a sharper brain for planning and perception Matthias Bastian View the LinkedIn Profile of Matthias Bastian Apr 17, 2026 Google Deepmind has released Gemini Robotics-ER 1.6, an upgraded model for embodied reasoning in robots. It acts as a high-level thinking layer that helps robots understand their surroundings and plan tasks on their own, tapping tools like Google Search or vision-language-action models when needed. Deepmind says the new version beats both Gemini Robotics-ER 1.5 and Gemini 3.0 Flash at pointing to objects, counting, and recognizing successful task execution. Reading instruments like pressure gauges and sight glasses, a capability developed with Boston Dynamics, has also seen a major boost. The model pairs agentic image processing with code execution: it zooms in to catch small display details, uses pointing functions and code to calculate proportions and scale distances, then applies world knowledge to interpret the reading. Boston Dynamics' Spot robot reportedly uses the feature for system inspections. The model is available through the Gemini API and Google AI Studio , with a Colab example for developers. Ad DEC_D_Incontent-1 Ad AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: Google Deepmind Ask about this article… Search