Perplexity accusé de contourner les protections anti-scraping des sites web

L’industrie de l’intelligence artificielle fait face à une nouvelle controverse majeure concernant les pratiques d’extraction de données. Cloudflare, géant de l’infrastructure internet, accuse formellement Perplexity de violer délibérément les souhaits des propriétaires de sites web en collectant leurs contenus malgré des interdictions explicites. Cette révélation soulève des questions fondamentales sur l’éthique et la légalité des méthodes employées par les startups IA pour alimenter leurs modèles.

Des pratiques d’extraction dissimulées à grande échelle

Selon les recherches publiées lundi par Cloudflare, la startup d’intelligence artificielle ignore systématiquement les blocages et dissimule ses activités de crawling. L’entreprise d’infrastructure réseau accuse Perplexity de masquer son identité lors des tentatives d’extraction de pages web « dans le but de contourner les préférences du site ».

Les chercheurs de Cloudflare expliquent que Perplexity modifie délibérément l’« user agent » de ses bots, signal qui identifie un visiteur par son appareil et sa version, ainsi que leurs réseaux de systèmes autonomes (ASN). Cette activité frauduleuse s’étend à « des dizaines de milliers de domaines et des millions de requêtes quotidiennes », précise l’analyse.

L’ampleur du phénomène impressionne par sa systématisation : Cloudflare affirme avoir pu identifier ce crawler grâce à une combinaison d’apprentissage automatique et de signaux réseau, témoignant de la sophistication des méthodes de contournement employées.

Une défense peu convaincante face aux preuves

Confrontée à ces accusations, Perplexity adopte une stratégie de déni qui paraît peu crédible au regard des éléments présentés. Jesse Dwyer, porte-parole de l’entreprise, qualifie l’article de Cloudflare de « présentation commerciale », affirmant dans un courriel à TechCrunch que les captures d’écran « montrent qu’aucun contenu n’a été accessible ».

Dans un message de suivi, Dwyer prétend même que le bot mentionné dans l’article de Cloudflare « ne nous appartient même pas ». Cette défense contradictoire semble difficilement tenir face aux preuves techniques détaillées fournies par l’opérateur d’infrastructure.

Un comportement systématique révélé par les plaintes clients

Cloudflare révèle avoir découvert ce comportement suite aux plaintes de ses clients, qui signalaient que Perplexity continuait d’extraire leurs contenus malgré l’ajout de règles dans leurs fichiers Robots.txt et le blocage spécifique des bots connus de la société. L’entreprise a ensuite effectué des tests pour confirmer ces contournements.

Les investigations ont révélé que Perplexity utilise non seulement son user-agent déclaré, mais aussi un navigateur générique destiné à imiter Google Chrome sur macOS lorsque son crawler officiel se trouve bloqué. Cette double approche témoigne d’une volonté délibérée de tromper les systèmes de protection.

Cloudflare riposte avec de nouvelles mesures

En réponse à ces pratiques, Cloudflare annonce avoir retiré les bots de Perplexity de sa liste vérifiée et développé de nouvelles techniques pour les bloquer. Cette décision marque une escalade dans le conflit entre les fournisseurs d’infrastructure et les entreprises d’IA qui exploitent abusivement les contenus web.

L’entreprise s’était déjà positionnée contre les crawlers IA le mois dernier en lançant une marketplace permettant aux propriétaires de sites de facturer les scrapers IA qui visitent leurs plateformes. Matthew Prince, PDG de Cloudflare, avait alors alerté sur le fait que l’IA « brise le modèle économique d’internet », particulièrement pour les éditeurs.

Un historique de controverses persistantes

Cette accusation ne constitue pas un incident isolé pour Perplexity. L’année dernière, des médias comme Wired avaient déjà allégué du plagiat de leurs contenus par la startup. Lors de la conférence Disrupt 2024, le PDG Aravind Srinivas s’était montré incapable de fournir immédiatement la définition du plagiat selon son entreprise, révélant une approche floue de ces questions éthiques.

Ces révélations répétées illustrent un problème structurel dans l’industrie de l’IA, où la course à l’innovation semble primer sur le respect des droits de propriété intellectuelle et des souhaits explicites des créateurs de contenu.

SOURCE : TechCrunch

Perplexity accusé de contourner les protections anti-scraping des sites web

ChatGPT franchit le cap des 700 millions d’utilisateurs hebdomadaires

Les injections de peptides non testés vendues comme « biohacks de nouvelle génération »

Les injections de peptides non testés vendues comme « biohacks de nouvelle génération »