Robot

Google donne des instructions en textes et en images à un robot-chatbot

Par Arnaud Devillard le 31.03.2023 à 06h00 Ecouter 4 min.

Le projet PaLM-E de Google est un système d'agent conversationnel dont les réponses servent d'instructions au robot. Mais une caméra y ajoute des informations en images.

réagir

Dans un environnement compliqué, le robot est allé chercher le paquet de chips dans le tiroir.

Google Research, Robotics at Google, TU Berlin

Commenter

Google donne des instructions en textes et en images à un robot-chatbot

Arnaud Devillard

00:00 / 00:00

Robotique, vision par ordinateur et modèle de langage. C’est la combinaison détonante du projet PaLM-E d’une équipe de chercheurs de Google et de l’université technique de Berlin (Allemagne). Un modèle de langage appelé Pathways, présenté par une équipe de Google en 2022, a été intégré à un robot mobile conçu par la division robotique de Google. L’utilisateur interroge ou donne des instructions en langage naturel, l’agent conversationnel bâti sur Pathways répond et cette réponse déclenche une action de la part de la machine, sorte de version incarnée, matérielle, d’un chatbot. D’où le nom du projet : Pathways Language Model-Embodied (incarné, en anglais).

Mais, à l’instar du projet de robot-peintre FRIDA de l’université Carnegie-Mellon, évoqué par Sciences et Avenir récemment, les instructions sont dites "multimodales", à savoir que l’on peut interagir avec l’agent conversationnel en lui envoyant une combinaison de texte et d’images. Par exemple, comme on le voit sur la page de démos du site du projet, la photo d’un étal de donuts est associée à la question "A quel parfum est le donut sur la gauche ?" pour générer la réponse "A la myrtille".

"Comment répartir les blocs par couleurs ?"

Google a mené plusieurs expérimentations de manipulations d’objets avec un bras robotique préhensible monté sur roue. Il est équipé d’une caméra qui lui permet d’envoyer des informations visuelles sur l’environnement. Tandis que l’appareil cadre une table sur laquelle sont disposés des petits blocs colorés de diverses formes, l’agent conversationnel reçoit comme question : "Comment répartir les blocs par couleurs dans chaque coin ?" Ce qui déclenche toute une séquence où le robot agit étape par étape.

Première réponse de PaLM-E : "pousse le rond rouge dans le coin haut gauche", suivi du mouvement correspondant du robot. Le flux vidéo témoigne maintenant d’un nouvel état sur la table, ce qui amène une deuxième instruction du chatbot : "pousse l’étoile rouge vers le rond rouge". Puis "pousse le cœur jaune dans le coin haut à droite", et ainsi de suite.

Sur ce principe, l’équipe a fait accomplir à la machine quelques tâches plus complexes, comme celle consistant à aller chercher un paquet de chips dans un tiroir de cuisine (qu’il faut trouver et ouvrir) et l’apporter à quelqu’un (voir la vidéo ci-dessous). Or, quand l’équipe tente de perturber l’accomplissement de sa mission, en lui reprenant le paquet pour le remettre dans le tiroir, le robot persiste, comme prisonnier d’une boucle, tant qu’il n’a pas apporté l’objet à son destinataire comme le chatbot le lui a indiqué.

Pour une de ses expérimentations, Google a créé l’environnement d’une cuisine. Le robot doit se repérer et trouver un paquet de chips dans un tiroir avant de l’apporter à un opérateur. Crédits : Robotics at Google, Google Research, TU Berline

Sur le plan moteur, le résultat est encore très lent (les vidéos de démo sont accélérés quatre fois sans que les scènes aillent à une vitesse folle) mais il ouvre les perspectives. Le projet montre en effet que l'entrainement initial de l'algorithme suffit et que le robot peut accomplir ses tâches sur des objets qu'il ne connaît pas, dans la mesure où la combinaison texte- flux vidéo apporte les informations nécessaires.

Commenter

Robotique Chatbot Google

Commenter

Commenter Pour réagir, veuillez vous connecter en cliquant ici

à la une cette semaine

Couverture du hors-série Sciences et Avenir

Lire S’abonner

Intelligence artificielle

Tous les articles Intelligence artificielle

Web

TikTok sous pression de la Commission européenne et du Sénat américain

Tous les articles Web

Robot : les articles les plus lus