Nvidia s'accapare une avalanche de vidéos YouTube et Netflix pour former ses IA
Selon une enquête de 404 Media, Nvidia utilise une énorme quantité de vidéos YouTube et Netflix pour ses projets d'intelligence artificielle, posant des questions sur la légalité de cette pratique.
Nvidia siphonnent des masses de données d’entraînement à partir de vidéos en ligne pour former des modèles d’IA, révèle un article de 404 Media, qui se base sur des conversations et documents internes à l'entreprise californienne.
Des employés de Nvidia ont téléchargé des vidéos de diverses sources, en se concentrant surtout sur YouTube (Netflix est aussi concerné). Pour ce faire, un téléchargeur open-source appelé yt-dlp a été employé, associé à des machines virtuelles pour changer les adresses IP et éviter ainsi les blocages de YouTube. Nvidia a apparemment utilisé 20 à 30 machines virtuelles AWS pour télécharger l'équivalent de 80 années de vidéos par jour. Finalité? Entraîner des modèles d'IA pour le générateur d’univers 3D Omniverse, des systèmes de conduite autonome et des produits regroupés sous l’étiquette «digital human».
Du «fair use» selon Nvidia
Contacté par 404 Media, Nvidia a notamment fait valoir que l’utilisation transformative des données vidéo pour l’entraînement de modèles serait protégée par le principe de l'utilisation équitable («fair use»). Egalement contacté par le média, Google (dont la maison-mère Alphabet est aussi propriétaire de Youtube) estime qu’il y a abus, renvoyant à des déclarations précédentes de son CEO au sujet d’OpenAI qui aurait clairement violé les conditions d'utilisation de YouTube pour mettre au point son générateur IA de vidéos Sora. Du côté de Netflix, un porte-parole a déclaré que la plateforme n'a aucun accord avec Nvidia et que ses conditions de service interdisent cette pratique qualifiée de «scraping».
Selon les informations divulguées par l’article (payant) de 404 Media, des préoccupations concernant la légalité et l’éthique de la démarche ont été exprimées par des employés de Nvidia. Cependant, celles-ci ont été écartées par les chefs de projet, affirmant avoir reçu l’approbation de la direction.