RPA 2.0

Avec Operator, les ambitions d’OpenAI dans l’IA agentique se précisent

Au tour d’OpenAI de lancer un agent IA qui dépoussière le concept du RPA. L’éditeur de ChatGPT a dégainé la preview d’Operator, capable de contrôler un navigateur web pour exécuter des actions autonomes.

(Source: Freepik/Freepik.com)
(Source: Freepik/Freepik.com)

OpenAI a annoncé le lancement d'une préversion d'un outil appelé Operator, présenté comme un agent IA polyvalent capable de prendre le contrôle d'un navigateur web et d'effectuer certaines actions de manière autonome. Selon la documentation de la société à l'origine de ChatGPT, cet outil peut automatiser diverses tâches - comme remplir des formulaires, réserver des voyages ou même créer des mèmes - en interagissant à distance avec un navigateur web, de la même manière qu'une personne le ferait, par des clics de souris, des défilements et des saisies au clavier. 

Cette description d'IA agentique n'est pas sans rappeler l'outil Computer Use d'Anthropic (une version de Claude 3.5 Sonnet capable d'effectuer des tâches simples sur un ordinateur), capable aussi de simuler les mouvements d'une souris ou les touches d'un clavier, à l'image des robots logiciels (RPA). Google travaille également sur Project Mariner  dans Gemini 2.0, avec des objectifs comparables à ceux de l'Operator d’OpenAI.

Operator est basé sur un modèle appelé Computer-Using Agent (CUA), fonctionnant sur GPT-4o. L’outil interprète des captures d'écran. L'utilisateur n'a qu'à décrire la tâche souhaitée, par exemple «Réserver un vol» ou «Commander des achats». L'agent effectue alors les étapes nécessaires, interrompant l'opération en cas d'obstacle tel qu'un CAPTCHA ou un champ de mot de passe. L’outil invite alors l'utilisateur à intervenir, ce qui lui permet de garder le contrôle. 

L’outil offre en outre une fonctionnalité pratique: l'enregistrement des prompts sur la page d'accueil pour un accès rapide. OpenAI précise qu’Operator reste limité lorsqu'il s'agit de tâches complexes ou spécialisées, telles que la création de présentations détaillées ou l'interaction avec des interfaces non standard. 

Parmi les cas d'utilisation mis en avant par OpenAI figurent les réservations de voyages et de restaurants, ainsi que les commandes en ligne. L’éditeur précise travailler à cette fin avec un certain nombre d'entreprises, notamment OpenTable, StubHub, Instacart, DoorDash et Uber. 

Tags
Webcode
9vHeGG84