GenAI

OpenAI dévoile GPT-4o, doté d'un mode vocal pour tous

OpenAI lance GPT-4o, une version améliorée de son modèle d’IA offrant une intégration complète des modalités de texte, de parole et d'image. Le modèle sera aussi proposé aux utilisateurs de la version gratuite de ChatGPT.

(Source: Solen Feyissa sur Unsplash)
(Source: Solen Feyissa sur Unsplash)

La société OpenAI, qui développe ChatGPT, a dévoilé son nouveau modèle de langage GPT-4o. Il est censé offrir des capacités au niveau du modèle actuel, GPT-4, tout en étant plus rapide et en disposant de meilleures capacités de traitement du texte, de la parole et des images, indique l'annonce.

Le «o» de GPT-4o fait référence à «omni», explique OpenAI, ce qui signifie «tout» en latin. Le modèle se veut une avancée vers une interaction plus naturelle entre l'homme et la machine. Il accepte comme entrée n'importe quelle combinaison de texte, de parole et d'images. Il réagit aux entrées audio en 320 millisecondes en moyenne, avec des pointes à 232 millisecondes.

La performance pour l'anglais et le code est au même niveau que celle de GPT-4, et même meilleure dans d'autres langues, promet OpenAI. Dans la vidéo de présentation, les développeurs montrent comment l'outil communique presque en temps réel avec une personne dans le cadre d'un dialogue vocal. Doté d’une voix féminine à l’accent américain, le chatbot peut en outre être interrompu sans problème lorsqu'il parle, sans qu’il ne perde le fil de la conversation. Une démo a par ailleurs mis en avant la soi-disant capacité de l'outil à «comprendre» l'état émotionnel de l'utilisateur à partir de la captation vidéo de son visage (sur ces différents aspects, lire notre interview de Marisa Tschopp, chercheuse spécialisée dans l'étude de l'IA d'un point de vue psychologique).

GPT-4o bénéficie d’une intégration complète des modalités textuelles, visuelles et audio au sein du modèle. Alors que le mode vocal de son prédécesseur était en fait composé de modèles distincts, nécessitant la transcription de l'audio en texte puis une conversion du texte en audio. Cette segmentation impliquait une latence importante. 

Nouveaux risques

Selon OpenAI, GPT-4o intègre dès sa conception la sécurité dans toutes les modalités, au moyen de techniques telles que le filtrage des données d'entraînement et l'affinement du comportement du modèle par le biais du post-entraînement. «Nous reconnaissons que les modalités audio du GPT-4o présentent une variété de nouveaux risques. Aujourd'hui, nous rendons publiques les entrées et les sorties de texte et d'image. Au cours des semaines et des mois à venir, nous travaillerons sur l'infrastructure technique, la facilité d'utilisation après la formation et la sécurité nécessaires à la diffusion des autres modalités. Par exemple, lors du lancement, les sorties audio seront limitées à une sélection de voix prédéfinies et respecteront nos politiques de sécurité existantes», précise toutefois la société dirigée par Sam Altman. On se souvient en outre que lors du lancement de GPT-4, OpenAI avait   publié une «System Card», un document d’une soixantaine de pages décrivant à la fois les dangers et limites du modèle, ainsi que le processus de sécurisation s’appuyant sur des experts externes pour atténuer les risques avant son déploiement. Concernant GPT-4o, la publication de ce document est au programme mais se fera ultérieurement, précise OpenAI. 

Dans un premier temps, GPT-4o ne sera disponible que pour les utilisateurs de ChatGPT Plus et ChatGPT Team. Les utilisateurs d'entreprise suivront. Plus tard, le modèle sera disponible pour tous les utilisateurs, mais avec des restrictions. Les utilisateurs Plus devraient avoir une limite de messages jusqu'à cinq fois plus élevée que les utilisateurs Free. Les développeurs peuvent de leur côté accéder dès à présent à GPT-4o via l'API d’OpenAI. 
 

Tags
Webcode
GkZxkYNq