Partager
Robot

Google donne des instructions en textes et en images à un robot-chatbot

Le projet PaLM-E de Google est un système d'agent conversationnel dont les réponses servent d'instructions au robot. Mais une caméra y ajoute des informations en images.

réagir
Le robot est allé chercher le paquet de chips dans le tiroir.

Dans un environnement compliqué, le robot est allé chercher le paquet de chips dans le tiroir.

Google Research, Robotics at Google, TU Berlin
Le robot est allé chercher le paquet de chips dans le tiroir.
Google donne des instructions en textes et en images à un robot-chatbot
Arnaud Devillard
00:00 / 00:00

Robotique, vision par ordinateur et modèle de langage. C’est la combinaison détonante du projet PaLM-E d’une équipe de chercheurs de Google et de l’université technique de Berlin (Allemagne). Un modèle de langage appelé Pathways, présenté par une équipe de Google en 2022, a été intégré à un robot mobile conçu par la division robotique de Google. L’utilisateur interroge ou donne des instructions en langage naturel, l’agent conversationnel bâti sur Pathways répond et cette réponse déclenche une action de la part de la machine, sorte de version incarnée, matérielle, d’un chatbot. D’où le nom du projet : Pathways Language Model-Embodied (incarné, en anglais).

Mais, à l’instar du projet de robot-peintre FRIDA de l’université Carnegie-Mellon, évoqué par Sciences et Avenir récemment, les instructions sont dites "multimodales", à savoir que l’on peut interagir avec l’agent conversationnel en lui envoyant une combinaison de texte et d’images. Par exemple, comme on le voit sur la page de démos du site du projet, la photo d’un étal de donuts est associée à la question "A quel parfum est le donut sur la gauche ?" pour générer la réponse "A la myrtille".

"Comment répartir les blocs par couleurs ?"

Google a mené plusieurs expérimentations de manipulations d’objets avec un bras robotique préhensible monté sur roue. Il est équipé d’une caméra qui lui permet d’envoyer des informations visuelles sur l’environnement. Tandis que l’appareil cadre une table sur laquelle sont disposés des petits blocs colorés de diverses formes, l’agent conversationnel reçoit comme question : "Comment répartir les blocs par couleurs dans chaque coin ?" Ce qui déclenche toute une séquence où le robot agit étape par étape.

Première réponse de PaLM-E : "pousse le rond rouge dans le coin haut gauche", suivi du mouvement correspondant du robot. Le flux vidéo témoigne maintenant d’un nouvel état sur la table, ce qui amène une deuxième instruction du chatbot : "pousse l’étoile rouge vers le rond rouge". Puis "pousse le cœur jaune dans le coin haut à droite", et ainsi de suite.

Sur ce principe, l’équipe a fait accomplir à la machine quelques tâches plus complexes, comme celle consistant à aller chercher un paquet de chips dans un tiroir de cuisine (qu’il faut trouver et ouvrir) et l’apporter à quelqu’un (voir la vidéo ci-dessous). Or, quand l’équipe tente de perturber l’accomplissement de sa mission, en lui reprenant le paquet pour le remettre dans le tiroir, le robot persiste, comme prisonnier d’une boucle, tant qu’il n’a pas apporté l’objet à son destinataire comme le chatbot le lui a indiqué.

Pour une de ses expérimentations, Google a créé l’environnement d’une cuisine. Le robot doit se repérer et trouver un paquet de chips dans un tiroir avant de l’apporter à un opérateur. Crédits : Robotics at Google, Google Research, TU Berline

Sur le plan moteur, le résultat est encore très lent (les vidéos de démo sont accélérés quatre fois sans que les scènes aillent à une vitesse folle) mais il ouvre les perspectives. Le projet montre en effet que l'entrainement initial de l'algorithme suffit et que le robot peut accomplir ses tâches sur des objets qu'il ne connaît pas, dans la mesure où la combinaison texte- flux vidéo apporte les informations nécessaires.

Commenter Commenter
à la une cette semaine

Centre de préférence
de vos alertes infos

Vos préférences ont bien été enregistrées.

Si vous souhaitez modifier vos centres d'intérêt, vous pouvez à tout moment cliquer sur le lien Notifications, présent en pied de toutes les pages du site.

Vous vous êtes inscrit pour recevoir l’actualité en direct, qu’est-ce qui vous intéresse?

Je souhaite recevoir toutes les alertes infos de la rédaction de Sciences et Avenir

Je souhaite recevoir uniquement les alertes infos parmi les thématiques suivantes :

Santé
Nature
Archéo
Espace
Animaux
Je ne souhaite plus recevoir de notifications