Nouvelle fonctionnalité de Cloudflare

Un labyrinthe de pages web factices pour piéger les crawlers IA

Cloudflare propose une nouvelle méthode pour contrer les crawlers qui aspirent des contenus en ligne pour former les IA. Son système détecte ces bots en les attirant vers des pages sans rapport avec le contenu réel du site.

(Source: Dan Asaki sur Unsplash)
(Source: Dan Asaki sur Unsplash)

Cloudflare, le populaire fournisseur de services dédiés à la performance et à la sécurité des sites web, s’attaque au problème des «crawlers», ces bots qui collectent des données pour entraîner des modèles d’intelligence artificielle. Quelques mois après avoir publié une analyse montrant que ces bots aspirent massivement des contenus en ligne, parfois en contournant les restrictions mises en place, Cloudflare annonce ainsi une nouvelle fonctionnalité baptisée «AI Labyrinth» et destinée à contrer cette pratique.

«Bien que Cloudflare dispose de plusieurs outils permettant d’identifier et de bloquer les crawlers IA non autorisés, nous avons constaté que les bloquer directement peut alerter les attaquants, les poussant à changer de méthode, ce qui mène à une course sans fin. Nous avons donc voulu créer une nouvelle approche pour contrecarrer ces bots indésirables sans qu’ils ne s’en rendent compte», explique le fournisseur de services.

Les crawlers redirigés vers des pages leurres

Plutôt que de bloquer frontalement ces bots, le système redirige les crawlers vers des pages leurres, composées de contenus factuels mais dénués de lien avec le site d’origine. Ces textes, générés à l'aide de la GenAI, s’appuient sur des données réelles dans des domaines comme les mathématiques ou la biologie, afin d’éviter la propagation de fausses informations. 

Les pages leurres sont invisibles pour les utilisateurs classiques, car elles sont insérées via des liens cachés dans le code HTML. Chaque page générée inclut des balises meta appropriées afin d’empêcher son indexation par les moteurs de recherche, protégeant ainsi le référencement naturel. Lorsqu’un lien caché est suivi, il est presque certain qu’il s’agit d’un crawler automatisé, affirme Cloudflare. Ces interactions sont d'ailleurs utilisées ensuite pour renforcer les capacités de détection du système.

L’entreprise souligne que cette fonctionnalité est disponible pour tous les utilisateurs, y compris ceux de l’offre gratuite.

Tags
Webcode
9v4NMqM3