Pièjàrobots

Présentation

J'ai mis en place un pot de miel destiné à engluer les robots qui ne respectent pas le protocole standard d'exclusion (en anglais, désolée, je n'en connais pas en français), et plus particulièrement les robots aspirateurs d'adresses électroniques (email). Bien que je n'aie pas repris les outils proposés par l'auteur, je me suis fortement inspirée d'une page très détaillée (mais en anglais aussi) qui explique comment réaliser un piège efficace.

Vous connaissez le principe des attrape-mouches? Un ruban collant émet un odeur pour attirer les mouches, et les empêche de s'envoler une fois qu'elles se sont posées dessus. C'est à peu près la même idée ici, mais adapté à l'informatique et aux robots...

Astuces

Le script utilisé est écrit en PHP. Bien qu'assez simple, il met en œuvre plusieurs ruses...

Récursivité
Principe de base de tout piège à robots, la page contient des liens vers elle-même, bien que le chemin semble indiquer qu'il s'agit d'un sous-répertoire. Pour ce faire, la configuration du serveur indique que tout sous-répertoire du pot de miel doit renvoyer vers le même endroit... mais sans en informer le navigateur, bien entendu.
Fausses informations
De fausses adresses email et de faux liens sont générés à la volée. De cette manière, les robots aspirateurs d'adresses seront incités à saturer leurs bases de données avec des informations erronnées, les rendant moins utiles. Un travail de pollution, en quelque sorte.
Chargement au ralenti
Pour obliger le robot à maintenir ouverte sa connexion, et donc l'empêcher d'en ouvrir ailleurs, la page est excessivement lente à se charger. Le serveur est vieux et ma connexion ADSL est bien encombrée, mais surtout, le script attend quelques secondes de temps en temps, tout simplement...
Parasites binaires
Des caractères binaires sont insérés aléatoirement un peu partout, y compris dans les balises HTML elles-mêmes... Pour peu que le robot soit mal programmé, on peut espérer qu'il s'emmêle les pinceaux en essayant d'interpréter la page.
Dépassement de tampon
Dans la même série que le précédent, une adresse électronique sur dix a une longueur énorme et est remplie de caractères binaires. Dans l'espoir qu'en plus, le robot parasite se mette à exécuter n'importe quoi sur le système qui l'a lancé!

Bien entendu, les robots respectant les standards sont écartés du piège grâce au fichier robots.txt.

Téléchargement

Mon piège est placé sous la Licence Publique Générale GNU (GNU Public License). Vous pouvez le télécharger et l'utiliser vous aussi; je vous engage vivement à le modifier et à l'améliorer, afin que les robots parasites soient toujours soumis à des conditions plus difficiles!

Les instructions d'installation sont assez simples. Tout d'abord, votre serveur doit être capable d'exécuter du PHP, sinon le script ne risque pas de fonctionner. Installez le piège dans un répertoiren, disons /piege/glue/ (arborescence relative à votre serveur), et ajoutez les lignes suivantes dans votre fichier robots.txt, pour protéger les bons robots:


User-agent: *
Disallow /piege/glue/

Pour activer la récursivité, vous devez ensuite dire au serveur de renvoyer toutes les pages sur le script index.php. Par exemple, avec Apache et mod_rewrite:


RewriteEngine On
RewriteRule /piege/glue /piege/glue/index.php

Et c'est parti pour un tour...

Attention! Ne suivez pas les liens du paragraphe suivant. Le contenu de la page cible est volontairment très long à charger, et il contient, de manière aléatoire, des caractères binaires susceptibles de faire planter votre navigateur, voire votre système. Si vous décidez néanmoins de charger cette page, faites-le à vos risques et périls.

Contrairement à ce que prétend ce paragraphe, la page suivante n'est pas réellement un livre d'or (guestbook) plein d'adresses email à aspirer pour nos ennemis les spammeurs, et plein de signatures.


[email protected]

Ce site est membre de Chocolat: miam!.
Retour à ma page sur l'informatique.
Retour à ma page principale.
Dernière modification: 30 août 2003.