Pourquoi tout ce buzz autour de Deepseek?

Articles

Deepseek suspend les nouvelles inscriptions à son interface web après une cyberattaque. La start-up chinoise fait surtout beaucoup parler d'elle en raison des performances et de la gratuité de son nouveau LLM open source R1, qui a de quoi faire trembler les géants de l’IA tels qu’OpenAI.

(Source: KATRIN BOLOVTSOVA / pexels.com; Deepseek)

L'entreprise chinoise Deepseek fait actuellement beaucoup parler d'elle avec le lancement de R1, son nouveau LLM open source. Présenté comme à la fois ultra-performant et accessible gratuitement, ce modèle donne des sueurs froides au géants américains de l’IA, dans un contexte où les Etats-Unis affûtent leurs armes pour rester leader dans le domaine, à l'image de l'initiative Stargate, qui prévoit un investissement colossal de 500 milliards de dollars dans le développement d'infrastructures dédiées à l'intelligence artificielle. Une stratégie qui s'inscrit dans une logique de surenchère visant à augmenter toujours plus les capacités de calcul nécessaires à ces technologies.

Des attaques à grande échelle ciblent Deepseek

Deepseek attire donc tous les regards, mais également ceux d’acteurs malveillants. Lundi 27 janvier, l’entreprise a été contrainte de suspendre les nouvelles inscriptions après avoir subi une cyberattaque. La page de statut de Deepseek indique que, face à des attaques à grande échelle ciblant ses services, la société a décidé de limiter temporairement les inscriptions pour garantir la continuité du service. Avant de préciser que les utilisateurs existants peuvent se connecter normalement. Bien que les détails de l’attaque n’aient pas été révélés, il est supposé que l’entreprise fait face à une attaque par déni de service distribué (DDoS) contre son API et sa plateforme web de chat, selon le site spécialisé Bleeping Computer.

Fondée en 2023, Deepseek était jusqu’ici un laboratoire de recherche en IA relativement méconnu. Alors, pourquoi le lancement de son nouveau modèle a-t-il autant fait parler de lui dans la Silicon Valley? Probablement parce que Deepseek a prouvé qu'il était possible de surpasser les modèles les plus performants de l'industrie, comme OpenAI o1, sur plusieurs critères mathématiques et de raisonnement. Et ce, en réinventant la structure fondamentale des modèles d'IA et en utilisant plus efficacement des ressources limitées, analyse le média Wired.

Chaîne de pensée et apprentissage par renforcement

Fin 2024, la jeune pousse chinoise a lancé Deepseek V3, un modèle de langage capable de rivaliser avec Llama 3.1 de Meta, GPT-4o d'OpenAI ou Claude 3.5 Sonnet d'Anthropic. Le modèle R1, qui est un modèle dit de raisonnement, est une version affinée de V3, résume le site spécialisé The Register. Comme OpenAI 01, R1 utilise le raisonnement par chaîne de pensée (CoT). Cette technique diffère des modèles conventionnels, qui se contentent de fournir une réponse unique à une question. Ici, les modèles décomposent d'abord la requête en une série de «réflexions», ce qui leur permet d'analyser et de corriger d'éventuelles erreurs ou hallucinations avant de donner une réponse finale. Selon Georg Zoeller, Chief Strategist de C4AIL, qui s’exprime dans un billet de blog, les articles techniques de Deepseek ouvrent d’ailleurs la porte à de nouvelles possibilités, notamment en exploitant l’apprentissage par renforcement et la distillation pour affiner le comportement des modèles au-delà du raisonnement par chaîne de pensée.

Deepseek R1 est disponible gratuitement, sur Hugging Face et sous la licence open source MIT, très permissive. Perplexity, le moteur de recherche dopé à la GenAI, fait partie des premiers services à avoir intégré R1. Les abonnés à Perplexity Pro ont désormais le choix entre o1 et R1 pour les «requêtes de raisonnement». A l'intention des utilisateurs qui rechigneraient à partager des données avec un LLM basé en Chine, Perplexity souligne avoir hébergé son modèle R1 dans des centres de données occidentaux (Europe et Etats-Unis).

Pourquoi tout ce buzz autour de Deepseek?

Des attaques à grande échelle ciblent Deepseek

Chaîne de pensée et apprentissage par renforcement

PLUS DE NEWS

Zurich craint que l’intégrité numérique des citoyens n’empiète sur les libertés de son administration

Jo Debecker dirigera Akkodis, filiale technologique d’Adecco

Datadog étend ses capacités au monitoring des données

Events

Bechtle IT Forum #BITF25

Dossiers

AI shopper

GenAI & cybersécurité

Robotique

Numéro Actuel

Déléguer les achats aux agents IA

Pourquoi tout ce buzz autour de Deepseek?

Des attaques à grande échelle ciblent Deepseek

Chaîne de pensée et apprentissage par renforcement

«Train, baby, train»

OpenAI, Oracle et Softbank s’associent pour investir 500 milliards dans des datacenters IA aux Etats-Unis

GitHub Copilot s'ouvre aux LLM tiers

OpenAI et Perplexity misent sur l’e-shopping agentique

PLUS DE NEWS

Zurich craint que l’intégrité numérique des citoyens n’empiète sur les libertés de son administration

Jo Debecker dirigera Akkodis, filiale technologique d’Adecco

Datadog étend ses capacités au monitoring des données

Events

Bechtle IT Forum #BITF25

Dossiers

AI shopper

GenAI & cybersécurité

Robotique

Numéro Actuel

Déléguer les achats aux agents IA