IA vocale

Les Français de Kyutai dévoilent un chatbot vocal présenté comme supérieur à celui d’OpenAI

Kyutai, laboratoire français, a dévoilé Moshi, une IA vocale qui aurait été conçue en six mois par une équipe de huit chercheurs. Le chatbot pourrait simuler 70 émotions et promet des interactions naturelles. Une interface web permet de se faire une idée de ses capacités réelles.

Patrick Perez, dirigeant du laboratoire de recherche Kyutai, lors de la keynote de présentation de Moshi. (Source: DR)
Patrick Perez, dirigeant du laboratoire de recherche Kyutai, lors de la keynote de présentation de Moshi. (Source: DR)

Le laboratoire de recherche français Kyutai a dévoilé son prototype d'intelligence artificielle vocale, nommé Moshi. Le communiqué souligne que le système a été mis au point en seulement six mois, avec une une équipe de huit chercheurs. 

Fondé à Paris en novembre 2023, Kyutai est né de l'initiative du groupe Iliad (du fondateur de Free Xavier Niel), qui avait investi 100 millions d’euros dans ce laboratoire également financé par le dirigeant de CMA CGM Rodolphe Saadé et Eric Schmidt, ex-CEO de Google. 

Moshi a été conçu avec Helium, LLM multimodal de 7 milliards de paramètres, rapportent plusieurs médias. Le système peut aussi être installé localement et fonctionner sur un appareil non connecté, précise l'annonce de Kyutai. Et d'ajouter que le modèle sera prochainement partagé librement. 

Selon ses concepteurs, Moshi permet de communiquer de manière fluide, naturelle et expressive avec une IA, à l'image des capacités promises de ChatGPT-4o Voice, dévoilé en mai dernier par OpenAI (le groupe a récemment repoussé la date de lancement de cette fonctionnalité). La vidéo de présentation de Moshi illustre le potentiel de ce chatbot vocal, qui serait capable d’imiter 70 émotions et de simuler des accents mais dont la voix garde, selon notre perception, de légères intonations non naturelles (un côté voix de synthèse propre aux assistants vocaux d’ancienne génération). Moshi serait aussi capable de gérer deux flux audio simultanément, pour écouter tout en parlant.

Moshi peut d’ores et déjà être testé via une interface web pour des conversations en anglais et limitées à 5 minutes. La rédaction a bavardé quelques minutes avec le chatbot et constaté que s’il répond du tac au tac, il a toutefois tendance à couper la parole de son interlocuteur de façon qui frôle l'impolitesse (un aspect qui ressort aussi dans la vidéo de démonstration). Moshi nous a en outre parlé de son film préféré mais sans être capable de nommer son acteur principal.  

Tags
Webcode
FcBXdKgE