Simulation d’entreprise

Les agents IA loin d’être prêts pour le travail autonome au bureau

Une étude menée par Carnegie Mellon et l’Allen Institute for AI montre que, dans le cadre d’une simulation, les agents basés sur l’IA générative échouent encore dans la majorité des tâches professionnelles.

(Source: wenwenf_foto/Pixabay)
(Source: wenwenf_foto/Pixabay)

Des chercheurs de Carnegie Mellon et de l’Allen Institute for AI ont évalué les capacités réelles des agents d’intelligence artificielle générative dans un environnement professionnel simulé. Leur étude, publiée sur la plateforme de prépublications scientifiques arXiv, révèle que même les modèles les plus performants échouent dans la majorité des tâches, remettant en question leur efficacité actuelle pour automatiser des fonctions de bureau complexes. 

Pour mener cette évaluation, les auteurs ont conçu une plateforme open source baptisée TheAgentCompany, simulant une entreprise logicielle. L’environnement inclut des outils réalistes comme GitLab, RocketChat ou OwnCloud, hébergés localement. Cette approche vise à tester les agents dans des conditions proches de celles rencontrées dans des contextes professionnels réels.

Moins de 30% de réussite autonome

Plusieurs agents IA, s’appuyant sur des LLM comme Gemini 2.5 Pro, GPT-4  ou Claude 3.7 Sonnet, ont été chargés de collaborer pour accomplir 175 missions types, couvrant des domaines tels que le développement logiciel, la gestion de projet, les ressources humaines ou la finance.

Les résultats sont clairs: aucun agent n’a accompli plus de 30% des tâches de manière autonome. En incluant les missions partiellement réussies, Gemini 2.5 Pro ressort comme le modèle le plus performant, avec un taux de réussite de 30%, selon le rapport.

À titre de comparaison, GPT-4o n’a réussi que 8% des missions tandis que Claude 3.7 Sonnet atteint 26% de réussite pondérée. Du côté des modèles open source, Llama 3.1 (405B) plafonne à 7% de réussite.

Des limites marquées sur les tâches complexes

Les performances des agents varient fortement selon la nature des missions. Ils se montrent relativement efficaces pour des tâches de développement logiciel, tandis que les résultats chutent face aux missions relevant de la finance, des ressources humaines ou des fonctions administratives. Pourtant considérées comme moins complexes pour les humains, ces dernières posent davantage de difficultés aux agents IA, en raison notamment du manque de données d’entraînement disponibles sur ces contextes professionnels spécifiques.

Les chercheurs identifient plusieurs causes récurrentes d’échec: les agents peinent à gérer le temps, à hiérarchiser les priorités ou à maintenir une logique de travail cohérente sur plusieurs étapes. Ils rencontrent aussi des difficultés à interagir avec des interfaces complexes ou à interpréter correctement des échanges sociaux. Certains agents, lorsqu’ils sont incertains, génèrent des réponses plausibles en apparence mais inadaptées au contexte, ou tentent de «court-circuiter» les étapes d’une tâche en contournant les consignes, ce qui nuit à leur fiabilité dans des environnements professionnels exigeants.

Des attentes revues à la baisse

Ces résultats font écho aux prévisions prudentes de Gartner en juin dernier, selon lesquelles plus de 40% des projets impliquant des agents IA seront abandonnés d’ici 2027, notamment en raison d’une valeur commerciale incertaine et d’une complexité sous-estimée. Le cabinet alerte également sur le phénomène d’Agent Washing, qui consiste à présenter des outils classiques (assistants, RPA) comme de véritables agents IA, alors que peu de solutions sont aujourd’hui capables de fonctionner de façon autonome sur des tâches complexes.

Les auteurs de l’étude estiment que les progrès dans les modèles de langage ne suffisent pas à eux seuls. Selon eux, il faut désormais combiner ces modèles à de meilleures capacités de raisonnement à long terme, à des interfaces plus robustes et à des mécanismes de collaboration plus efficaces pour espérer franchir un cap en matière d’automatisation.

Selon l’étude, si les IA génératives peuvent accompagner certains processus, elles restent loin de pouvoir automatiser de manière fiable les fonctions professionnelles complexes. Le benchmark TheAgentCompany est disponible en ligne pour permettre à d’autres chercheurs ou entreprises de tester leurs propres agents.

Webcode
xPsk46rW