sexta-feira, 14 de março de 2025

Google na corrida dos robôs com olhos nos humanoides

“O próximo grande salto da humanidade serão os robôs humanoides ”, diz Rev Lebaredian, vice-presidente de Omniverse e Tecnologia de Simulação da gigante da computação Nvidia. O trampolim para esse salto, antecipado como um dos avanços disruptivos dos próximos anos , já está aqui e o Google acaba de entrar na corrida ao anunciar a Gemini Robotics, o desenvolvimento de seu modelo de inteligência artificial (IA) para máquinas, tanto para robôs industriais quanto humanoides, e que disponibilizou para testes a gigantes da indústria como Apptronik , Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools.

Até agora, os robôs eram mecanismos articulados “cegos e burros”, como Lebaredian descreve os modelos antigos, projetados para executar tarefas repetitivas, mas incapazes de aprender, desenvolver-se em cenários desconhecidos e agir de acordo.

Para Dennis Hong, fundador da RoMeLa, “o futuro é que os robôs sejam capazes de fazer tudo o que um humano pode fazer”. Mas para agir como uma pessoa, eles precisam de um cérebro que lhes permita entender, aprender, perceber e agir. E essa mente é a IA baseada em grandes modelos de linguagem (LLM), a inteligência artificial capaz de desenvolver máquinas até sua expressão máxima: andróides, robôs com aparência e comportamento semelhantes aos humanos, capazes de funcionar em um mundo desenvolvido por e para pessoas.

Robôs movidos pela inteligência artificial do Google ainda não demonstraram em testes de laboratório habilidades tão complexas quanto a Figura 01 , o protótipo mais próximo do humanoide que a ficção científica havia antecipado e apoiado pela Open AI, Nvidia e Jeff Bezos, fundador da Amazon.

Mas aqueles equipados com a Gemini Robotics estão se aproximando muito mais após a mudança de direção adotada em 2024. “No ano passado”, explica Carolina Parada, diretora de engenharia da Google DeepMind Robotics e de origem venezuelana, “decidimos assumir um novo desafio e focar em ensinar robôs a executar tarefas complexas de manipulação fina, como as que fazemos ao amarrar os sapatos, usando dados do mundo real e de simulação para aprender”.

Deste desafio surgiu a Gemini Robotics, o modelo de IA voltado para o desenvolvimento de robôs de uso geral (humanoides). “Para fazer isso, eles precisam ser realmente úteis, entender você, entender o mundo ao seu redor e, então, ser capazes de agir com segurança, interação e habilidade”, explica Parada.

Os testes de laboratório mostrados, onde robôs, usando comandos de voz, pegam e armazenam objetos em recipientes específicos descritos apenas por sua cor e que mudam de localização, podem parecer simples, mas para um robô, são muito difíceis. A esse respeito, Kanisha Rao, colega de Parada na DeepMind, ressalta que os robôs “funcionam bem em cenários que já vivenciaram, mas falham em cenários desconhecidos”.

Dessa forma, como explica Rao, durante os testes, as máquinas foram colocadas em situações em que os objetos que elas deveriam identificar e manipular mudam de cor, os ambientes são modificados e a IA responde a comandos para ações que são novas para a máquina ou sobre objetos com os quais ela não está familiarizada, como arremessar uma bola de basquete de brinquedo sem ter aprendido previamente qual é o esporte.

Para atingir essas habilidades , explica Parada, a IA do robô deve entender a linguagem natural, “entender o mundo físico em detalhes” e, de acordo com Vikas Sindhwani, um cientista pesquisador da equipe de robótica do Google DeepMind, agir com segurança por meio de “avaliações das propriedades da cena e das consequências de realizar uma determinada ação”.

O caminho para a segurança ainda está aberto. Sindhwani diz que eles conseguiram dar aos robôs uma ampla “compreensão” desse conceito com base nos dados reais e simulados que alimentam sua IA, mas eles continuam a se ajustar para “permitir tarefas cada vez mais interativas e colaborativas” sem riscos e cumprir as três regras de Isaac Asimov: um robô não deve prejudicar um humano por ação ou omissão; deve obedecer às ordens humanas, a menos que isso entre em conflito com a primeira lei; e deve proteger sua própria existência, a menos que entre em conflito com a Primeira ou Segunda Lei.

O conceito geral da nova mudança do Google em direção à robótica é transferir o que foi conquistado no mundo digital, com o desenvolvimento de agentes (assistentes) cada vez mais sofisticados, para o ambiente físico. “Na DeepMind, temos melhorado a maneira como nossos modelos Gemini resolvem problemas complexos por meio de raciocínio multimodal com texto, imagens, áudio e vídeo. Até agora, porém, essas habilidades têm sido amplamente limitadas ao mundo digital. Para que a IA seja útil para as pessoas no reino físico, ela deve demonstrar raciocínio “ incorporado ”, a capacidade humana de entender e reagir ao mundo ao nosso redor”, explica Parada.

Os dois modelos de IA do Google para robotização são VLA (visão-linguagem-ação), construído no Gemini 2.0 e incorporando ações físicas, e ER (raciocínio incorporado), com habilidades de raciocínio.

Essas ferramentas são o caminho para a utilidade real, que Parada resume: “Os modelos de IA para robótica precisam de três qualidades principais: eles precisam ser gerais, ou seja, precisam ser capazes de se adaptar a diferentes situações; Eles precisam ser interativos, o que significa que podem entender e responder rapidamente a instruções ou mudanças em seu ambiente; e eles precisam ter destreza, o que significa que eles podem fazer o tipo de coisas que as pessoas geralmente conseguem fazer com as mãos e os dedos, como manipular objetos cuidadosamente.”
Raúl Limón

Nenhum comentário:

Postar um comentário