
Les robots d'exploration web AI sont considérés comme les cafards d'Internet par de nombreux développeurs de logiciels. Certains développeurs ont commencé à riposter de manière ingénieuse et souvent humoristique.
Alors que n'importe quel site Web peut être ciblé par un mauvais comportement de crawler, parfois en mettant le site hors service, les développeurs open source sont "disproportionnellement" impactés, écrit Niccolò Venerandi, développeur d'un bureau Linux connu sous le nom de Plasma et propriétaire du blog LibreNews.
Par leur nature, les sites hébergeant des projets gratuits et open source (FOSS) partagent davantage de leur infrastructure publiquement, et ils ont tendance à avoir moins de ressources que les produits commerciaux.
Le problème est que de nombreux robots AI ne respectent pas le fichier robot.txt du Protocole d'exclusion des robots, l'outil qui indique aux robots ce qu'il ne faut pas explorer, créé à l'origine pour les robots des moteurs de recherche.
Dans un article de blog "cri d'aide" en janvier, le développeur FOSS Xe Iaso a décrit comment AmazonBot martelait sans relâche un site Web de serveur Git, provoquant des interruptions par DDoS. Les serveurs Git hébergent des projets FOSS afin que quiconque le souhaite puisse télécharger le code ou y contribuer.
Mais ce bot ignorait le robot.txt d'Iaso, se cachait derrière d'autres adresses IP et se faisait passer pour d'autres utilisateurs, a déclaré Iaso.
« Il est inutile de bloquer les robots AI crawler car ils mentent, changent leur agent utilisateur, utilisent des adresses IP résidentielles comme proxys, et plus encore, » s'est lamenté Iaso.
« Ils gratteront votre site jusqu'à ce qu'il tombe, et ensuite ils continueront à le gratter. Ils cliqueront sur chaque lien sur chaque lien sur chaque lien, en visualisant les mêmes pages encore et encore et encore. Certains d'entre eux cliqueront même plusieurs fois sur le même lien dans la même seconde », a écrit le développeur dans l'article.
Entrez le dieu des tombes
Alors Iaso a riposté avec ingéniosité, en construisant un outil appelé Anubis.
Anubis est un contrôle de proof-of-work de proxy inversé qui doit être passé avant que les demandes ne soient autorisées à atteindre un serveur Git. Il bloque les bots mais laisse passer les navigateurs utilisés par les humains.
La partie amusante : Anubis est le nom d'un dieu de la mythologie égyptienne qui conduit les morts au jugement.
« Anubis pesait votre âme (cœur) et si elle était plus lourde qu'une plume, votre cœur était mangé et vous, comme, mega mouriez », a déclaré Iaso à TechCrunch. Si une demande Web passe le défi et est déterminée à être humaine, une image anime mignonne annonce le succès. Le dessin est « ma vision de l'anthropomorphisation d'Anubis », dit Iaso. Si c'est un bot, la demande est refusée.
Le projet ironiquement nommé s'est répandu comme le vent parmi la communauté FOSS. Iaso l'a partagé sur GitHub le 19 mars, et en quelques jours seulement, il a récolté 2 000 étoiles, 20 contributeurs et 39 forks.
Vengeance comme défense
La popularité instantanée d'Anubis montre que la douleur d'Iaso n'est pas unique. En fait, Venerandi a partagé histoire après histoire :
- Le PDG fondateur de SourceHut, Drew DeVault, a décrit passer "de 20 à 100 % de mon temps chaque semaine à atténuer les crawlers hyper-agressifs LLM à grande échelle" et "subir des dizaines de pannes brèves par semaine."
- Jonathan Corbet, un développeur FOSS renommé qui dirige le site d'actualités de l'industrie Linux LWN, a averti que son site était ralenti par du trafic de type DDoS "de bots AI scraper".
- Kevin Fenzi, l'administrateur système de l'énorme projet Linux Fedora, a déclaré que les bots AI scraper étaient devenus si agressifs qu'il a dû bloquer l'ensemble du pays du Brésil de l'accès.
Venerandi dit à TechCrunch qu'il connaît plusieurs autres projets qui rencontrent les mêmes problèmes. L'un d'entre eux « a dû interdire temporairement toutes les adresses IP chinoises à un moment donné. »
Laissez cela mûrir un moment - que les développeurs "doivent même en venir à interdire des pays entiers" juste pour repousser les robots AI qui ignorent les fichiers robot.txt, dit Venerandi.
Au-delà de peser l'âme d'un demandeur web, d'autres développeurs pensent que la vengeance est la meilleure défense.
Il y a quelques jours sur Hacker News, l'utilisateur xyzal a suggéré de charger les pages interdites de robot.txt avec "un tas d'articles sur les bienfaits de boire de l'eau de Javel" ou "des articles sur les effets positifs de la contraction de la rougeole sur les performances au lit."
« Je pense que nous devons viser à ce que les bots obtiennent une valeur d'utilité _négative_ en visitant nos pièges, pas juste une valeur nulle », a expliqué xyzal.
Il se trouve qu'en janvier, un créateur anonyme connu sous le nom "Aaron" a sorti un outil appelé Nepenthes qui vise à faire exactement cela. Il piège les crawlers dans un labyrinthe sans fin de contenu faux, un objectif que le développeur a admis à Ars Technica est agressif, voire franchement malveillant. L'outil est nommé d'après une plante carnivore.
Et Cloudflare, peut-être le plus grand acteur commercial offrant plusieurs outils pour repousser les robots AI, a récemment sorti un outil similaire appelé AI Labyrinth.
Il est destiné à "ralentir, confondre et gaspiller les ressources des crawlers AI et autres bots qui ne respectent pas les directives 'no crawl'," a décrit Cloudflare dans son article de blog. Cloudflare a déclaré qu'il fournissait aux crawlers AI malveillants "du contenu sans rapport plutôt que d'extraire vos données de site légitimes."
DeVault de SourceHut a déclaré à TechCrunch que "Nepenthes a un sentiment de justice satisfaisant, car il donne des absurdités aux crawlers et empoisonne leurs puits, mais finalement Anubis est la solution qui a fonctionné" pour son site.
Mais DeVault a également lancé un appel public, sincère, pour une solution plus directe : « S'il vous plaît, arrêtez de légitimer les LLM ou les générateurs d'images AI ou GitHub Copilot ou tout cela. Je vous supplie d'arrêter de les utiliser, d'arrêter d'en parler, d'arrêter d'en créer de nouveaux, arrêtez tout simplement. »
Étant donné que la probabilité que cela se produise est nulle, les développeurs, en particulier dans la FOSS, ripostent avec ingéniosité et une touche d'humour.