» Bots – unnötige Traffic Sauger aussperren

am: 25.11.2013
von: Andreas
in: Webmaster

Die Problematik mit Bots, die den kompletten Blog binnen weniger Minuten crawlen und so manchem Blogger die Zornesröte ins Gesicht treibt, wird mit jedem Jahr größer. In diesem Jahr hatte ich bereits drei Fälle, wo ich eigentlich einen teureren Server hätte ordern müssen, damit die Webseite wieder schnell und reibungslos ausgeliefert wird. Die Besucherzahl sowie Seitenaufrufe waren allerdings immer auf gleichem Niveau, der Traffic-Verbrauch jedoch ist teilweise um 25-35 Prozent gestiegen. Nach Auswertung der Server Logs und Statistiken konnten die Bots als Übeltäter ausgemacht werden.

In Deutschland ist es beim Shared Hosting gängige Praxis, bei zu hohem Traffic aufkommen die Bandbreite zu drosseln. Hilft das nicht und der Server geht durch die Last in die Knie, ist der Blog kaum noch erreichbar und wahrscheinlich meldet sich dann auch der Hoster bei euch. Nicht selten wird zu einem anderem Hosting Paket oder Server geraten, was natürlich wieder Geld kostet. Bots verursachen also nicht nur unnötigerweise mehr Traffic, sondern können im schlimmsten Falle auch in zusätzliche Kosten resultieren.

Schlechte Bots identifizieren

Jeder guter Web Hoster stellt in der Regel auch brauchbare Statistiken zur Verfügung. Die gängigsten sind AWStats (Hetzner.de) oder Webalizer (all-inkl.de). Anhand der Statistiken lassen sich schnell erste Bots ausfindig machen. Bots besitzen normalerweise einen User Agent String (Bezeichnung/Name) und in einigen Fällen wird sogar auf eine Informationsseite vom Betreiber verwiesen (inklusive Tipps zum Ansprechen des Bots via robots.txt). Ob diese Hinweise zur Steuerung des Bots (Zeitabstände bzw. Crawlingverhalten) tatsächlich funktionieren, sei dahingestellt. Sucht die Bots heraus, die am meisten Aufrufe und Traffic verursachen. Achtet aber darauf, dass ihr nicht die Feed Reader eurer Leser sperrt. Eine sehr umfangreiche Bot Liste zum Abgleichen findet ihr hier.

Bots via htaccess aussperren

Am besten lassen sich Bots via htaccess aussperren. Dies funktioniert auch anhand der Namen (User Agent String). Bitte denkt daran, die htaccess wird bei jedem Aufruf einer Seite vom Server gelesen/ausgeführt. Also bitte keine ellenlange Liste anlegen, das wirkt sich nur kontraproduktiv aus. Alle Bots auf Dauer aussperren ist auch kaum möglich. Es reicht, die größten Übeltäter einzuschränken. Bei mir waren es beispielsweise u. a. die Bots von amazonaws.com, die von vielen Tool Betreibern genutzt werden. Dementsprechend sieht die htaccess aus:


RewriteEngine On
RewriteCond %{HTTP_REFERER} ^http://.*amazonaws\.com [OR]
RewriteCond %{REMOTE_HOST} ^.*\.compute-1\.amazonaws\.com$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "AISearchBot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "woriobot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "NetSeer" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Nutch" [NC]
RewriteRule ^(.*)$ - [F]

Anonyme Bots identifizieren

Pretty Link  Hits

Pretty Link Hits

Es gibt auch Bots, die ganz bewusst keine Kennung verwenden oder sich sogar als normaler Besucher (mit Mozilla/Chrome/Safari Browser Kennung) tarnen. Das können beispielsweise Content Diebe sein, die den Feed missbrauchen, automatisierter Kommentar Spam oder Backlink und Onpage Tools, die den Blog in einem Durchgang crawlen und dies auf täglicher Basis vornehmen. Da hier immer mit vielen abwechselnden IPs gearbeitet wird, macht das Identifizieren natürlich etwas schwerer. Ich habe aber einen guten Workaround gefunden, der zudem recht erfolgreich ist. Das Plugin Pretty Links Lite (kostenlos) ist eigentlich zum Maskieren von Affiliate Links gedacht, protokolliert allerdings auch die IPs und speichert diese im Backend (Pretty Link Menü – Hits) ab. Wiederkehrende Bots und Aktionen sind da schnell ausgemacht. Idealer Ansatz um uns die Arbeit zu erleichtern. Installiert das Plugin, legt einen Link in Pretty Link Lite an und platziert diesen im Footer. Impressum oder Kontakt Seite sind gute Kandidaten, da diese meistens von jeder Blogseite erreichbar sind und zudem gerne von PR Bots ausgelesen werden um Email Adressen für einen Mail/PR Verteiler zu sammeln. Schon nach 2-3 Tagen seid ihr in der Lage, die ersten Bots bzw. deren IP zu identifizieren. Überprüft mithilfe dieser Webseite, ob es sich nicht doch um einen normalen User handelt. Wird dort eine statische Server Adresse angegeben, handelt es sich oftmals um einen Proxy, was aber nicht immer zwingend der Fall sein muss. Die so gefundene IP lässt sich ebenfalls via htaccess sperren. Dazu muss Folgendes eingetragen werden:


Order deny,allow
Deny from IP Adresse eintragen

Stoßt ihr auf Bots die eine IP Range verwenden (Beispiel 100.100.10.01 – 100.100.10.10) dann macht es Sinn, diesen Bereich zu sperren. Statt 100.100.10.01 – 100.100.10.10 einfach nur 100.100.10. eintragen. Der letzte Zahlenblock entfällt also. Anstatt der IP Adresse, kann auch der Hoster Name angegeben werden, was ebenfalls vorkommen kann. Beide Varianten werden in der htaccess anstandslos akzeptiert.
Ich habe mit diesen beiden Methoden ein paar wirklich üble Bots erkennen sowie aussperren können und der Aufwand ist sehr gering gewesen. Damit habe ich letztendlich auch höhere Serverkosten eingespart, die einen 3-stelligen Betrag (monatlich) ausgemacht hätten. Es lohnt sich also, die Server Logs in Ruhe auszuwerten und hin und wieder aufzuräumen.

GD Star Rating
loading...
Bots – unnötige Traffic Sauger aussperren, 3.2 out of 5 based on 5 ratings