Wer kennt folgende Situation nicht. Man selbst, oder jemand anders der es gut mit einem meint, verbreitet den eben gelesenen Artikel via Twitter als Tweet. Dadurch erhöht sich die Reichweite, was leider immer mehr ausgenutzt wird. So nutzen so genannte Social Websites diese Tweets dazu, um sich von Blogs Trackbacks bzw. Links zu erschleichen. Zeit, diese komplett aus dem Blog auszusperren bevor noch größerer Schaden entsteht denn selbst vor Content Diebstahl schreckt man nicht mehr zurück.
Funktionsweise
Immer mehr versuchen auf diese billige Art und Weise, die eigenen Projekte aufzubauen und Geld damit zu verdienen. Dabei wird der gesendete Tweet mit der verkürzten URL (Shorturl) wieder in den Ursprünglichen Zustand gewandelt. Damit passender Content vorhanden ist, wird direkt danach ein Bot zu dieser URL geschickt, der dann den Artikel Feed ausliest und diesen Ausschnittsweise inklusive der URL auf die fremde Seite generiert. Somit hat man etwas Content, eine passende URL die natürlich dann an den Blog als Trackback gesendet wird.Das ganze ist folglich verlinkt und geht in den Google Index. Bis hierhin hat man diesen Trackback Spam und deren Vorgehensweise genervt und zähneknirschend hingenommen. Mich hat es natürlich ebenfalls gewurmt und es war immer so “hart an der Grenze”.
Neue Dimensionen – Content Diebstahl
Die Konkurrenz scheint wohl recht groß bei diesen beschissenen Social Irgendwas Seiten sein und der Markt ist offenbar hart umkämpft denn seit kurzem fängt man an, auf illegale Methoden zurück zu greifen. So liest ubervu.com nun den ganzen Kommentar Feed aus und generiert diesen Content komplett und ungekürzt inklusive Avatar Bilder der Kommentatoren, auf die eigene Seite. Somit hat man mehr Content als die Konkurrenz und sich einen Vorsprung verschafft. Berichtet hatte ich darüber in diesem Artikel wo auch ein Statement von ubervu.com zu finden ist.
Man hat wohl nicht vor dies generell einzustellen und ist tatsächlich der Meinung, das man den Blogs “was gutes tut” und mit Besucher versorgt. Ist natürlich totaler Blödsinn und nicht mehr als eine fadenscheinige Ausrede. Selbstverständlich ist das ein klarer Fall von Urheberrechtsverletzung (Copyright Violation) und man hofft wohl, solange man nicht den ganzen Artikel klaut und “nur” dessen Kommentare, kommt man damit davon. Allerdings kann es sich eigentlich kein Blogger erlauben, seine Leser bzw. Kommentatoren im Regen stehen zu lassen. Irgendwann haben diese deswegen nämlich schlicht keine Lust mehr zu kommentieren. Für mich ein Grund, mir die Sache um alle Beteiligten etwas genauer anzuschauen.
Wer also immer etwas Bauchschmerzen wegen des auslesen von Artikel oder Kommentar Feed hatte, sieht sich nun bestätigt und man kann annehmen, das andere diesen Beispiel folgen werden denn die meisten arbeiten nach dem gleichen Prinzip und den selben Mitteln. Sogar die gleichen Server werden offenbar genutzt. Genau diesen Umstand kann man sich mit sehr wenig Aufwand zunutze machen.
Die Übeltäter aussperren
Leider hilft das normale aussperren via WordPress –> Dashobard nicht, es muss die htaccess editiert werden was aber recht schnell geht. Die Bekanntesten und deren Bots sind recht einfach zu ermitteln und im folgenden nun eine sehr kurze Liste die aber regelmäßig auf dem neuesten Stand gebracht wird. Wer weitere IP+Bots kennt, bitte melden, ich füge diese dann in die Liste ein.
Um die Bots dauerhaft via htaccess auszusperren, gebt Ihr immer folgendes in Eure htaccess ein:
Deny from IP Adresse
Also recht einfach, in machen Fällen muss man eine ganze IP Range aussperren. Statt der ganzen IP (Beispiel: XX.XXX.XX.XX) müssen dazu nur die ersten beiden Zahlenreihen eingegeben werden (Beispiel: XX.XXX.) Achtet dann darauf, das am Ende ein Punkt vorhanden ist.
Liste Stand 07.01.2010:
Tweetmeme.com sendet zwei Bots mit folgender IP: 89.151.84.34 und 89.151.116.52
Topsy.com 208.74.66.
ubervu.com nutzt viele IPs daher muss die IP Range genommen werden: 174.129.
In Eure Kommentar-Blacklist WordPress->Dashboard->Einstellungen->Diskussion sollten auch diese Trackback Spammer nicht fehlen:
wp-popular.com
wp-lesezeichen.de
Vor denen habt Ihr dann Ruhe. Zur Zeit werte ich noch die Log Files aus um weitere Bots zu finden. Das Zuweisen dauert allerdings etwas, ich will auch niemanden zu unrecht aussperren. Wer hier also Fehler entdeckt, korrigiert mich bitte.
Welche Rolle spielt Amazonaws.com?
Auffallend ist, das sehr viele Bots von compute-1.amazonaws.com kommen bzw. Ihre Arbeit verrichten. Dies ist der Web Service von Amazon der scheinbar einige Vorteile bietet. Zumindest wird dieser gerne genutzt denn recht viele unterschiedliche Bots sind dort gehostet. Auch bitly.com (Short URL Service) nutzt diesen Host. Ich kann mir aber nicht wirklich vorstellen, das Amazonaws besonders begeistert ist, das da von deren Server aus, teilweise echt übler Unfug kommt.
Wer mag kann die Liste kopieren bzw. dazu einen eigenen Artikel in seinem Blog verfassen und publizieren. Eigentlich ist das sogar ausdrücklich erwünscht und Quellenangabe ist hier auch egal. Hauptsache man wird aktiv und sieht nicht einfach tatenlos zu.
loading...
Michael
7. Januar 2010, 22:58 Uhr
Da sprichst du sehr gute Punkte an, nur leider ist es in der Praxis schwierig gegen Content Diebstahl vorzugehen, besonders wenn man eine englischsprachige Website hat. Man kann natürlich einerseits Bots aussperren, aber es gibt so viele davon, dass es meiner Erfahrung nach leider fast unmöglich ist sich effektiv dagegen zu wehren.