OpenAI et Google dotent leurs LLM de capacités d'analyse visuelle en direct
OpenAI déploie un mode vidéo interactif pour ChatGPT, tandis que Google introduit son API Multimodal Live. Capables d'analyser voix et vidéo, ces innovations ouvrent la voie à des assistants IA qui interagissent en temps réel aux inputs des utilisateurs.
OpenAI a annoncé sur X le déploiement progressif d'une nouvelle fonctionnalité tirant profit de l'analyse d'informations visuelles en temps réel. Les utilisateurs des abonnements ChatGPT Plus, Pro et Team pourront interagir en direct avec ChatGPT via le mode vidéo de leur smartphone et le partage de captures d'écran. Cette mise à jour permet d'obtenir un retour immédiat du chatbot sur le contenu à l'écran ou d'obtenir des explications, par exemple sur des menus de paramètres ou des problèmes mathématiques.
Pour utiliser ces nouvelles fonctionnalités, les utilisateurs doivent activer le mode Advanced Voice en appuyant sur l'icône de la voix dans la barre de chat. Une option vidéo en bas à gauche permet aux utilisateurs de lancer un appel vidéo, tandis que l'option de partage d'écran se trouve dans le menu à trois points.
A noter que la fonctionnalité n’est pour l'heure pas proposée en Europe ni en Suisse.
Des API pour les interactions multimodales en temps réel
L'annonce d'OpenAI intervient peu après le lancement de Gemini 2.0, la nouvelle version majeure de la famille de modèles de langage développée par Google. De nombreuses fonctionnalités ont été dévoilées, dont l'une fait appel à des capacités d'analyse visuelle en temps réel: l'API Multimodal Live, destinée aux développeurs. L’API est pensée pour leur permettre de créer des applications dynamiques et interactives, selon Google.
Cette API multimodale permet des interactions bidirectionnelles en temps réel en traitant simultanément des entrées texte, audio et vidéo, avec des réponses pouvant être générées en texte ou en audio. Elle se distingue par sa faible latence et sa capacité à gérer des conversations naturelles, notamment en prenant en compte les interruptions et en détectant automatiquement l'activité vocale. L’API élargit considérablement l'éventail des options de communication, en permettant aux utilisateurs de partager des flux vidéo tels que des captures d'écran ou des entrées de caméra, tout en posant des questions directement sur ce contenu, lit-on dans la documentation que Google adresse aux développeurs d’’applications.
De son côté, OpenAI avait déjà introduit une innovation similaire en octobre dernier avec son API Realtime, qui reprend certains des principes de l'Advanced Voice Mode de ChatGPT. Cette API permet des conversations de type speech-to-speech, offrant aux développeurs la possibilité d'intégrer des entrées textuelles ou audio, et des réponses sur mesure sous forme de texte, d'audio, ou des deux à la fois, précise OpenAI.