Google a manipulé une vidéo pour faire paraître Gemini plus puissant qu’il ne l’est (update)
Google a levé le voile sur Gemini, son LLM pensé pour être multimodal dès sa formation. Plusieurs versions sont lancées, Nano, Pro et Ultra. La dernière serait plus puissante que GPT-4 et sera bientôt introduite dans le chatbot Bard. Une impressionnante vidéo promotionnelle a créé le buzz mais s’avère en réalité en partie truquée.
Mise à jour du 11 décembre 2023: En dévoilant son LLM Gemini, Google a impressionné son monde (la rédaction y compris) avec une vidéo promotionnelle censée montrer les capacités de «compréhension» audiovisuelle de son modèle (voire news originale ci-dessous). Sauf que la présentation en question est en partie truquée, a rapporté le site spécialisé Techcrunch. La description sous la vidéo Youtube précisait certes qu’un montage avait été effectué pour réduire la latence avant la production d’une réponse. Mais la manipulation va bien au-delà.
«En réalité, il s'agit d'une série de prompts textuels soigneusement ajustés avec des images fixes, clairement sélectionnés et raccourcis pour déformer la réalité de l'interaction. Vous pouvez voir certains des prompts et des réponses réelles dans un article de blog connexe - qui, pour être honnête, est lié à la description de la vidéo, bien qu'en dessous de " ... more"», indique Techcrunch.
Par exemple, dans la vidéo, Gemini reconnaît presque instantanément qu’une personne joue à «Feuille-Caillou-Ciseaux» en ne voyant qu’un seul geste. En réalité, le système à dû être soumis aux trois gestes, mais aussi au prompt: «Qu'est-ce que vous pensez que je suis en train de faire? Indice: c'est un jeu.»
News originale du 7 décembre 2023: Google dévoile Gemini, son LLM multimodal taillé pour concurrencer GPT-4
Il paraît loin le temps où Google lançait à la hâte Bard, sa réponse à ChatGPT. La firme de Mountain View a introduit son nouveau grand modèle de langage (LLM) Gemini, qui a la particularité d’avoir été formé dès les prémisses pour une interaction multimodale. Il est ainsi capable de «généraliser, comprendre avec fluidité, traiter et combiner différents supports d’informations, dont le texte, le code, l’audio, l’image et la vidéo», indique Demis Hassabis, CEO et cofondateur de Google DeepMind.
Dans un document technique d'une cinquantaine de pages, Google précise que les modèles Gemini sont entraînés sur un ensemble de données à la fois multimodales et multilingues, provenant de documents web, de livres et de codes. Et nous n’en saurons pas davantage sur les sources de données d'entraînement…
Modèle polyvalent décliné en trois versions
Dans son annonce, Google met en outre en avant la polyvalence de son modèle décliné en trois tailles différentes. Gemini Nano, le plus petit, se destine aux tâches embarquées (par exemple au sein des smartphones, il sera d'ailleurs intégré au Pixel). La version Pro serait adaptée à une grande variété de tâches, alors que Gemini Ultra, le plus puissant, se destine «aux tâches de haute complexité». Le rapport technique de Google indique que, selon différentes méthodes de benchmark
établies ou récentes, la version Pro fait mieux que GPT-3.5. Alors que Gemini Ultra serait plus puissant que GPT-4. Aussi bien pour des tâches textuelles que basées sur des images et le son.
GPT-3.5 est intégré au chatbot Bard dans 170 pays (mais pour l'heure ni en Europe ni en Suisse). En 2024, il est prévu d’introduire Bard Advanced, qui exploitera Gemini Ultra.
La firme de Mountain View a publié une vidéo qui a généré nombre de commentaires impressionnés, pour illustrer les capacités de «compréhension» audiovisuelle de son modèle.
Tensor Processing Units signés Google
Gemini a également une autre particularité, celle d'avoir été formé sur les TPU (Tensor Processing Units) développées par Google. La firme a d'ailleurs également annoncé un nouveau système, Cloud TPU v5p, spécifiquement conçu pour entraîner les modèles de pointe d’IA. Le document technique de la firme ne dit rien sur l'empreinte carbone de la formation de Gemini. Dans un récent billet de blog, Google a affirmé que la v4 de ses TPU est «l'un des centres d'infrastructure de ML les plus rapides, les plus efficaces et les plus durables au monde». L'entreprise mentionne en outre avoir effectué des analyses d'impact de son LLM, sans toutefois entrer dans les détails.