Spider- Trap

Ich freu mich über jede einzelne dieser Emails.

Neuer Spambot: /spider-trap/ 2006-06-18 (Sun) 10:36:57
IP: 216.7.179.20
User-Agent: Syntryx ANT Scout Chassis Pheromone; Mozilla/4.0 compatible
crawler

Auf meinen Webspaces, hier und anderswo, läuft Spider- Trap. Das Prinzip ist an und für sich recht simpel:

In einer robots.txt sagt man den Bots, welche Verzeichnisse gespidert werden dürfen und welche sie bitte tunlichst in Ruhe lassen sollten. Nur leider hören viele nicht darauf, insbesondere die Spambots nicht. (So sie diese denn überhaupt lesen)

Man wirft die Falle in ein Verzeichnis auf dem Webspace und weist die Bots mittels dieser robots.txt an, dieses Verzeichnis nicht zu spidern.

User-agent: *
Disallow: /Fallenverzeichnis

Ausserdem wird ein unsichtbarer Link auf die Seite eingebaut, für den Menschen nicht sicht- und klickbar.

Normalerweise kommt der Crawler, liest die Seite aus, schaut in der robots.txt, ab er den ( hier unsichtbaren) Links folgen darf oder nicht und tut dann sein Werk. Ã?bergeht oder ignoriert er allerdings die robots.txt, spidert sich in das verbotene Verzeichnis, wird er beim Aufruf der darin enthaltenen Datei automatisch via .htaccess ausgesperrt.

*Klappe zu, Affe tot*

Ich muss sagen, gerade auf einem meiner anderen Projekte, in denen der Spam gerade etwas überhand nahm, hat es sichtlich was bewirkt.

· Del.icio.us · Stumble it! · Mr Wong · Wer linkt hier her? ·

Gespeichert unter:

Schon gelesen?

· Spidertrap wird 1 · Selektives IP- Logging · Ein paar Punkte gegen Blogspam

Da wurde 5 x wat jesacht zu “Spider- Trap” »»

  1. Getippselt von Falk am 18.06.06 um 14:59

    Oh, das klingt schick :)

  2. Getippselt von Steffen am 02.01.07 um 22:50

    Das ist doch mal eine geile Idee :)

Trackbacks/Pingbacks»»

  1. Gepingt von Spidertrap wird 1 » Missis Notizblock am 29.01.07 um 21:50

    [...] Gerade beim Jan gefunden, upgedatet und für gut befunden: Spidertrap wird groß. [...]

  2. Gepingt von Ein paar Punkte gegen Blogspam » Missis Notizblock am 05.02.07 um 17:33

    [...] Da gibts die robots.txt zum einen, mitunter um Sachen wie AboutUs.org vorzubeugen. Das ist alles gut und schön, solange sich die Bots auch daran halten. Tun die meisten aber leider nicht und für solche Bots läuft hier Spidertrap, welche mir gerade bewies, das es noch funktioniert, weil ich nämlich dämlicherweise den Link nach einem gesperrten Verzeichnis benamste. Wird solch ein Verzeichnis aufgerufen, bannt Spidertrap diese IP automatisch in der htaccess und beantwortet von nun an Anfragen dieser IP mit einer 403. Verboten. Ausgesperrt. Für menschliche Fehlklicker besteht in solchem Fall die Möglichkeit sich selbst mittels eines Captchas (jaja...) freizuschalten. Wer mag, kanns einfach mal testen. Ausserdem gibts da noch ne Whitelist. Läuft ebenso auf mehreren Servern völlig problemlos bei mir. [...]

  3. Gepingt von Anonymes Bloggen » Missis Notizblock am 18.02.07 um 15:33

    [...] Wenn du das Gros der Suchmachinen, wie Google, davon abhalten möchtest, deinen Blog in deren Suchergebnisse aufzunehmen, kannst du eine spezielle Datei erstellen, die diesen Suchdiensten die Indizierung deiner Domain untersagt. Die Datei nennt sich robots.txt oder Robots Text File. Du kannst diese auch dazu nutzen, um Suchmachinen den Zugang zu bestimmten Teilen deines Blogs zu verwehren. Wenn du nicht weißt, wie das du anstellen mußt, dann kannst du einen Generator für diese Aufgabe nutzen, kostenlos beispielsweise bei Searchcode.de. Jedoch ist es wichtig zu wissen, das einige Suchmaschinen möglicherweise die Datei robots.txt ignorieren, und dadurch deinen Blog so leichter auffindbar machen. Es gibt eine große Anzahl von Programmen und Tricks, um das zu verhindern. (siehe hier und hier z.B.) [...]


Ick will mal wat sagen... »»

Datenschutzhinweis

Just type 'mv * /dev/null'.