Mega Spam
Auf digg.com macht gerade der Beitrag How One Spammer Got BILLIONS of Pages into Google in 3 Weeks die Runde. Eine megaheftige Spam-Geschichte, ausgelöst durch einen Beitrag im DigitalPoint Forum - und in die Welt hinausgetragen durch den Weblog-Beitrag Step-by-Step: How to Get BILLIONS of Pages Indexed by Google.
Ich habe im Laufe der Zeit schon eine Menge an Spam zu Gesicht bekommen, aber was da gerade abläuft schlägt alles bisher dagewesene. Nicht 1 Millionen Seiten, nicht 10 Millionen Seiten, nicht 100 Millionen Seiten, sondern mehrere Milliarden Seiten feinsten Spams sollen den Weg in den Google Index gefunden haben.
Was das bedeutet kann man sich leicht ausrechnen. Auf der einen Seite viele Besucher und viel Geld, auf der anderen Seite viel Spam und viel Ärger. Dass es mit den Besuchern geklappt hat, das belegen die Alexa-Traffic Statistiken der zwei ins Gerede gekommenen Domains eiqz2q.org (Pos. 6582) und t1ps2see.com (Pos. 1894):


Dass es mit dem Spam geklappt hat belegen die entsprechenden die site-Abfragen bei Google: site:eiqz2q.org mit ungefähr 5.020.000.000 Seiten und site:t1ps2see.com mit ungefähr 2.460.000.000 Seiten in Google Index! Ich traue diesen Zahlen nicht so ganz über den Weg, insbesondere die 5 Milliarden von eiqz2q.org kann ich mir nicht wirklich erklären, es sei denn Google spinnt, hat die vielen Weiterleitungen falsch zugeordnet bzw. doppelten Content gematcht oder hat die Seitenzahl gewürfelt.
Nichts desto trotz, mit unzähligen, Datenbank gestützten und hochvernetzten Subdomains a la
und einer großen Anzahl an Domains, auf denen dieses Spielchen abgezogen wurde, ist es den Spammern gelungen, eine wohl noch nie dagewesene Menge an Spam in den Googel Index zu pumpen. Sollten sich die obigen Zahlenangaben für den Mega-Spam als wahr erweisen, dann würde das einen 25% Anteil am Gesamtindex von Google bedeuten. Unfassbar.
Mittlerweile haben sich die Gesichter der meisten Seiten geändert, sie leiten jetzt fast alle auf dynamische Suchergebnis-Seiten auf der Domain t1ps2see.com weiter. Auch ist von der AdSense-Werbung keine Spur mehr zu entdecken, entweder hat AdSense schon reagiert und die Seiten aus dem Programm gekickt, oder die Spammer haben kalte Füße bekommen.
Bemerkenswert an der ganzen Geschichte ist vor allem die rasante Geschwindigkeit, mit der sich der Spam in den Index gefressen hat. Die beiden erwähnten Domains sind erst am 31-May-2006 bzw. 25-May-2006 erstellt worden. Das ist weltrekordverdächtig. Es sieht so aus, als hätte Googles BigDaddy Update noch ein paar kleine Schwächen im System.
Kommentar | 18. Juni 2006 um 13:42 | individueller Kommentarlink
Spam liegt immer im Auge des Betrachters, es gibt auch Leute, die solche Linksammlung hilfreich finden ;-)
Kommentar | 18. Juni 2006 um 13:47 | individueller Kommentarlink
Im Vergleich zu den deutschen Spam Sites sehen die Seiten auf dem ersten Blick sogar richtig professionell und seriös aus :D
Pingback | 18. Juni 2006 um 16:11 | individueller Pingbacklink
[…] Interessant, was der Gerald gefunden hat. […]
Kommentar | 18. Juni 2006 um 18:35 | individueller Kommentarlink
Die sehen wirklich profesioneller aus die meistn “normalen Seite”.
Nun gut, Spam ist Spam, BigDaddy hat zwar wirklich paar Seiten ausgefiltert, aber es ist auch viel neuer Müll gekommen.
Kommentar | 18. Juni 2006 um 20:24 | individueller Kommentarlink
Wenn das stimmen sollte (d.h. die site: Abfrage korrekte Daten liefert), dann wundert es mich überhaupt nicht, warum Google im Moment so “durch den Wind” ist.
Trackback | 18. Juni 2006 um 21:49 | individueller Trackbacklink
Spam, die x-te
Sagenhaft, was in wenigen Tagen hier wieder an Spam aufschlägt. Seit gestern wieder knapp 400 Kommentare, die Dank der entsprechenden Filter zwar nicht auf den Seiten erscheinen. Aber gesichtet (es könnte sich ja hin und wieder ein völlig harmloser …
Kommentar | 19. Juni 2006 um 00:38 | individueller Kommentarlink
Da war Google aber flott. Scheint alles aus dem Index geflogen zu sein. Ich glaube das aber nicht mit den Milliarden Seiten. Das wären ja dann ca. 50% vom gesamten Index. :D
Matt Cutts hat übrigens geantwortet (”Comment by Matt Cutts 06.17.06 @ 11:34 pm“) und er kann sich auch erklären was da schief gelaufen ist. Vorausgesetzt es ist auch Cutts, was ich mir aber gut vorstellen kann.
Kommentar | 19. Juni 2006 um 10:38 | individueller Kommentarlink
na ja, aus dem index sind die bereits wieder draussen..
ging noch schneller als recordverdächtiges “in den index rein”
Pingback | 19. Juni 2006 um 13:41 | individueller Pingbacklink
[…] Einen guten Artikel zum Thema Mega-Spam hat Gerald Steffens in seinem SEO Blog veröffentlicht. […]
Pingback | 22. Juni 2006 um 17:14 | individueller Pingbacklink
[…] Ein paar Tage nach der Mega-Spam Attacke lichten sich die Schleier und wir werfen noch einmal einen Blick auf die kuriose Spam-Aktion. Was ist in der Zwischenzeit passiert? […]
Trackback | 23. Juni 2006 um 09:38 | individueller Trackbacklink
Google Dance mal anders…..
Vor ein paar Tagen war die Google-Welt etwas turbulent - viele waren verunsichert. PR-Update wars dann doch keines - anscheinend. Aber es tat sich eine Menge im Hintergrund - das war sicher. Hier scheint die Lösung zu liegen:
…
Pingback | 29. Juni 2006 um 01:18 | individueller Pingbacklink
[…] Es geht einfach nicht in meinen Kopf. Immer wieder findet man massen an Spam im Google Index. Da werden gute und vernünftige Seiten zum Teil schlecht indexiert oder mit der Zeit sogar aus dem Index verbannt (Stichwort: Slow Death) und die Top Spammer pumpen weiterhin massen an Seiten in den Index, und ist die eine Baustelle behoben so finden sich schon wieder Tausend neue. […]
Pingback | 9. Juli 2007 um 19:14 | individueller Pingbacklink
[…] Doch ausser dem Bekannten Email-, Foren-, Gästebuch- und Blogspam geht das ganze noch ein Stück weiter. Suchmaschinenspam, eine riesige Flut von sinnfreien Seiten im Google-Index entern täglich die TOP100 von Google. Dabei geht es um Pagerankingspam, wo bestimmte Seiten quasi gestützt werden um sie vorranzutreiben bishin zu riesigen Spamnetzwerken mit sinnfreiem Inhalt. Google erkennt schwer ob es sich um seriöse Inhalte handelt oder um Trash. Google kann nur Wörter zählen, Zeichenabstände, Links, Linkanordnungen, verweisende Seiten, Backlinks etc. Das eigentliche Design einer Seite und die Aufbereitung des Inhalts ist nur schwer nachzuvollziehen. Auch wenn der Googlealgoryhtmus immer mehr verfeinert wird. So finden sie immer wieder Schlupflöcher und Möglichkeiten. Leider werden auf diese Art und Weise oftmals auch Seiten ins Aus katapultiert, die genau in dieses Muster fallen obwohl sie echte Inhalte bieten. […]