OpenAI dévoile GPT-4o, doté d'un mode vocal pour tous

News

OpenAI lance GPT-4o, une version améliorée de son modèle d’IA offrant une intégration complète des modalités de texte, de parole et d'image. Le modèle sera aussi proposé aux utilisateurs de la version gratuite de ChatGPT.

(Source: Solen Feyissa sur Unsplash)

La société OpenAI, qui développe ChatGPT, a dévoilé son nouveau modèle de langage GPT-4o. Il est censé offrir des capacités au niveau du modèle actuel, GPT-4, tout en étant plus rapide et en disposant de meilleures capacités de traitement du texte, de la parole et des images, indique l'annonce.

Le «o» de GPT-4o fait référence à «omni», explique OpenAI, ce qui signifie «tout» en latin. Le modèle se veut une avancée vers une interaction plus naturelle entre l'homme et la machine. Il accepte comme entrée n'importe quelle combinaison de texte, de parole et d'images. Il réagit aux entrées audio en 320 millisecondes en moyenne, avec des pointes à 232 millisecondes.

La performance pour l'anglais et le code est au même niveau que celle de GPT-4, et même meilleure dans d'autres langues, promet OpenAI. Dans la vidéo de présentation, les développeurs montrent comment l'outil communique presque en temps réel avec une personne dans le cadre d'un dialogue vocal. Doté d’une voix féminine à l’accent américain, le chatbot peut en outre être interrompu sans problème lorsqu'il parle, sans qu’il ne perde le fil de la conversation. Une démo a par ailleurs mis en avant la soi-disant capacité de l'outil à «comprendre» l'état émotionnel de l'utilisateur à partir de la captation vidéo de son visage (sur ces différents aspects, lire notre interview de Marisa Tschopp, chercheuse spécialisée dans l'étude de l'IA d'un point de vue psychologique).

GPT-4o bénéficie d’une intégration complète des modalités textuelles, visuelles et audio au sein du modèle. Alors que le mode vocal de son prédécesseur était en fait composé de modèles distincts, nécessitant la transcription de l'audio en texte puis une conversion du texte en audio. Cette segmentation impliquait une latence importante.

Nouveaux risques

Selon OpenAI, GPT-4o intègre dès sa conception la sécurité dans toutes les modalités, au moyen de techniques telles que le filtrage des données d'entraînement et l'affinement du comportement du modèle par le biais du post-entraînement. «Nous reconnaissons que les modalités audio du GPT-4o présentent une variété de nouveaux risques. Aujourd'hui, nous rendons publiques les entrées et les sorties de texte et d'image. Au cours des semaines et des mois à venir, nous travaillerons sur l'infrastructure technique, la facilité d'utilisation après la formation et la sécurité nécessaires à la diffusion des autres modalités. Par exemple, lors du lancement, les sorties audio seront limitées à une sélection de voix prédéfinies et respecteront nos politiques de sécurité existantes», précise toutefois la société dirigée par Sam Altman. On se souvient en outre que lors du lancement de GPT-4, OpenAI avait publié une «System Card», un document d’une soixantaine de pages décrivant à la fois les dangers et limites du modèle, ainsi que le processus de sécurisation s’appuyant sur des experts externes pour atténuer les risques avant son déploiement. Concernant GPT-4o, la publication de ce document est au programme mais se fera ultérieurement, précise OpenAI.

Dans un premier temps, GPT-4o ne sera disponible que pour les utilisateurs de ChatGPT Plus et ChatGPT Team. Les utilisateurs d'entreprise suivront. Plus tard, le modèle sera disponible pour tous les utilisateurs, mais avec des restrictions. Les utilisateurs Plus devraient avoir une limite de messages jusqu'à cinq fois plus élevée que les utilisateurs Free. Les développeurs peuvent de leur côté accéder dès à présent à GPT-4o via l'API d’OpenAI.

OpenAI dévoile GPT-4o, doté d'un mode vocal pour tous

Nouveaux risques

PLUS DE NEWS

La pub et la com’ s'invitent dans les assistants GenAI

IA & sécurité: notre webinaire pour comprendre la menace et protéger les usages IA

Six mise sur FinanceGPT

Events

Data Community Conference - 26.11.2024 Berne

Dossiers

Météo & data/IA

Robotique

SOC

Numéro Actuel

IA et data redéfinissent la météorologie

OpenAI dévoile GPT-4o, doté d'un mode vocal pour tous

Nouveaux risques

Marisa Tschopp, scip: «Cette maximisation d’une composante humaine dans la machine comporte de sérieux risques»

OpenAI dévoile un détecteur d'images générées par IA

Des prompts automatisés rendent GPT-4 performant sur les sujets médicaux

ChatGPT «devient fou», OpenAI s’explique

PLUS DE NEWS

La pub et la com’ s'invitent dans les assistants GenAI

IA & sécurité: notre webinaire pour comprendre la menace et protéger les usages IA

Six mise sur FinanceGPT

Events

Data Community Conference - 26.11.2024 Berne

Dossiers

Météo & data/IA

Robotique

SOC

Numéro Actuel

IA et data redéfinissent la météorologie