IA incarnée

Les robots de Figure peuvent manipuler des objets inconnus

Avec son nouveau modèle Helix, la start-up californienne Figure franchit une étape vers des robots humanoïdes capables de généraliser des connaissances et d’agir en conséquence. Helix permet notamment à des robots de manipuler correctement des objets qu'ils n'ont jamais vus.

(Source: Figure)
(Source: Figure)

L’intelligence artificielle générative joue un rôle central dans la transformation du domaine de la robotique. L’une des start-up les plus prometteuses dans ce secteur, Figure, vient d’annoncer ce qu'elle qualifie d’avancée majeure vers le développement de robots multifonctions capables d’accomplir des tâches ménagères complexes.

Soutenue financièrement depuis ses débuts par des acteurs clés comme Microsoft, OpenAI et NVIDIA, cette jeune pousse californienne a récemment dévoilé un nouveau modèle d’IA dédié aux robots humanoïdes (IA incarnée). Une annonce qui intervient peu après la déclaration de son CEO, Brett Adcock, qui a officialisé la fin de la collaboration avec OpenAI pour se concentrer sur un modèle entièrement développé en interne.

Pas besoin de démonstrations spécifiques

Figure a mis au point un modèle généraliste baptisé Helix, basé sur une approche Vision-Language-Action (VLA), qui unifie la perception, la compréhension du langage et le contrôle moteur. Ce modèle offre un contrôle avancé de l’ensemble du haut du corps humanoïde et permet aux robots de comprendre des commandes vocales. Mais surtout, il leur donne la capacité de manipuler des objets qu’ils n’ont jamais vus auparavant. Contrairement aux systèmes robotiques précédents, Helix est ainsi capable d’exécuter des manipulations complexes en temps réel, sans nécessiter de démonstrations spécifiques ou de programmation manuelle intensive.

Jusqu’ici, l’un des principaux obstacles des modèles d’IA incarnée résidait notamment dans leur incapacité à généraliser leurs apprentissages. Helix répond précisément à ce défi en extrayant les connaissances des modèles de vision et de langage (VLM) pour les convertir en un contrôle robotique généralisable.

Deux systèmes complémentaires 

L'entraînement d’Helix repose sur un ensemble de données comprenant environ 500 heures de comportements téléopérés, réalisés par plusieurs robots et opérateurs dans divers contextes. Le modèle s’appuie sur deux systèmes complémentaires. Le premier est un VLM pré-entraîné, utilisé pour la compréhension de scènes et du langage, ce qui permet une généralisation étendue aux objets et environnements variés. Le second système traduit les représentations sémantiques du premier système en actions robotiques précises et continues, explique Figure dans son annonce. 

Pour illustrer les capacités d’Helix, Figure l’a soumis à un défi de manipulation collaborative: deux robots ont travaillé ensemble pour organiser et ranger des produits alimentaires sans avoir été spécifiquement entraînés pour cette tâche. La démonstration est visible dans la vidéo ci-dessous:

Tags
Webcode
FZgFtjce