Spider- Trap
Ich freu mich über jede einzelne dieser Emails.
Neuer Spambot: /spider-trap/ 2006-06-18 (Sun) 10:36:57
IP: 216.7.179.20
User-Agent: Syntryx ANT Scout Chassis Pheromone; Mozilla/4.0 compatible
crawler
Auf meinen Webspaces, hier und anderswo, läuft Spider- Trap. Das Prinzip ist an und für sich recht simpel:
In einer robots.txt sagt man den Bots, welche Verzeichnisse gespidert werden dürfen und welche sie bitte tunlichst in Ruhe lassen sollten. Nur leider hören viele nicht darauf, insbesondere die Spambots nicht. (So sie diese denn überhaupt lesen)
Man wirft die Falle in ein Verzeichnis auf dem Webspace und weist die Bots mittels dieser robots.txt an, dieses Verzeichnis nicht zu spidern.
User-agent: *
Disallow: /Fallenverzeichnis
Ausserdem wird ein unsichtbarer Link auf die Seite eingebaut, für den Menschen nicht sicht- und klickbar.
Normalerweise kommt der Crawler, liest die Seite aus, schaut in der robots.txt, ab er den ( hier unsichtbaren) Links folgen darf oder nicht und tut dann sein Werk. Ã?bergeht oder ignoriert er allerdings die robots.txt, spidert sich in das verbotene Verzeichnis, wird er beim Aufruf der darin enthaltenen Datei automatisch via .htaccess ausgesperrt.
*Klappe zu, Affe tot*
Ich muss sagen, gerade auf einem meiner anderen Projekte, in denen der Spam gerade etwas überhand nahm, hat es sichtlich was bewirkt.