OpenAI cherche des organisations prêtes à fournir leurs données pour entraîner ses IA
Le fournisseur de ChatGPT annonce l’OpenAI Data Partnerships. Avec cette initiative, OpenAI compte convaincre les entreprises de fournir leurs propres jeux de données pour entraîner ses modèles de langage.
On le sait, les modèles d’intelligence artificielle sont susceptibles de reproduire des biais et contenus offensants voire toxiques (lire sur ce sujet: «Modèles de langage géants: des risques à la hauteur des capacités»). Pour contrer ce phénomène, les entreprises qui forment les LLM doivent pouvoir disposer de jeux de données aussi vastes que diversifiés. C’est justement l'ambition d’OpenAI avec son initiative tout juste annoncée, l’OpenAI Data Partnerships. «Nous recherchons des partenaires qui souhaitent nous aider à enseigner à l'IA à comprendre notre monde afin qu'elle soit le plus utile possible à tout le monde. Ensemble, nous pouvons progresser vers une IA qui profite à l'ensemble de l'humanité», précise la firme à qui l’on doit ChatGPT.
OpenAI cherche des données de tous domaines et de tous types (texte, images, audio ou vidéo), en particulier celles exprimant une intention humaine (de longs extraits plutôt que des bribes déconnectées). Les entreprises intéressées à collaborer dans le cadre de l’OpenAI Data Partnerships ont deux options. Dans les deux cas, le fournisseur de ChatGPT met ses compétences et technologies à disposition en reconnaissance des caractères (OCR), transcription de discours ou dialogues, ou encore en nettoyage de données.
Premièrement, il est possible de mettre à disposition des données d’entreprises pour alimenter des jeux de données en open source. «Cet ensemble de données serait public et pourrait être utilisé par tous pour l'entraînement de modèles d'IA. Nous envisageons également de l'utiliser pour former nous-mêmes, en toute sécurité, d'autres modèles à code source ouvert», explique la société fondée par Sam Altman.
Seconde option: alimenter des jeux de données privés. «Si vous disposez de données que vous souhaitez garder privées, mais que vous aimeriez que nos modèles d'IA aient une meilleure compréhension de votre domaine (ou que vous souhaitiez simplement évaluer le potentiel de vos données à cet égard), c'est la meilleure façon de collaborer. Nous traiterons vos données avec le niveau de sensibilité et les contrôles d'accès que vous souhaitez», fait savoir OpenAI.