Mega Spam revisited

Ein paar Tage nach der Mega-Spam Attacke lichten sich die Schleier und wir werfen noch einmal einen Blick auf die kuriose Spam-Aktion. Was ist in der Zwischenzeit passiert?

1:0 für Google, zumindest was den Vergleich mit der Konkurrenz angeht. Außerdem hat sich jetzt der Google Mitarbeiter Adam Lasnik aus dem Umfeld von Matt Cutts zu Wort gemeldet und darauf hingewiesen, dass die aberwitzigen Milliardenzahlen weit entfernt von den realen Zahlen gelegen wären und aufgrund eines missratenen Data-Pushs zustande gekommen wären. Die Original-Kommentare dazu finden sich bei Digg sowie im Weblog von John Battelle.

Ok, vertrauenseinflößend sind solche korrupten Dateneinspielungen nicht - alte SEO-Hasen dürfte es aber auch nicht verwundern, wenn man die vielen Merkwürdigkeiten im Google Index der letzten Wochen und Monate betrachtet - aber plausibel scheinen die Aussagen und Zahlen schon:

Compounding the issue, our result count estimates in these contexts was MANY orders of magnitude off. For example, the one site that supposedly had 5.5 billion pages in the index actually had under 1/100,000th of that.

Adam nimmt mit seiner Aussage Bezug auf die Domain eiqz2q.org, demzufolge es also nur rund 50.000 Seiten in den Google Index geschafft haben sollen. Die 5 Milliarden konnte ich mir sowieso nicht erklären, insbesondere weil ich mir den Aufbau des Konstruktes schon ziemlich genau angesehen habe. Man will ja was lernen ;-)

So, Scherz beiseite, ich hatte bei meiner Analyse nur 11 verschiedene Haupt-Subdomains feststellen können und wie man anhand der Liste leicht schlussfolgern kann, wurden diese Hauptbestandteile noch einmal in tausende durchnumerierte Sub-Subdomains unterteilt.

  1. 695.water.eiqz2q.org
  2. 3790.war.eiqz2q.org
  3. 12935.trucks.eiqz2q.org
  4. 790.sandals.eiqz2q.org
  5. 1039.question.eiqz2q.org
  6. 1096.quake.eiqz2q.org
  7. 6966.music.eiqz2q.org
  8. 2823.manager.eiqz2q.org
  9. 2912.playstation.eiqz2q.org
  10. 1728.pizza.eiqz2q.org
  11. 1376.places.eiqz2q.org

Die meisten der hier gefundenen Subdomains rangierten in 4-stelligen Ziffern-Regionen, aber auch einige Exemplare bis nahe an die 20.000 scheint es gegeben zu haben. Wenn ich mich recht entsinne habe ich keine Sub-Subdomain von eiqz2q.org jenseits der Zahl 22000 im Index einer der 3 großen Suchmaschinen finden können. Eine simple Überschlagsrechnung würde damit 11*22000 = 242000 Seiten als Obergrenze für die Spamseiten unter eiqz2q.org ergeben. Das ist sicherlich zu optimistisch gerechnet, wahrscheinlich sind unter einigen Subdomains weniger als 10.000 Ziffernkombinationen zum Einsatz gekommen. Zudem müssen nicht alle denkbaren Zahlenkombination mit Inhalten belegt gewesen sein bzw. könnten aufgrund von Fehlern oder Duplicate Content etliche Seiten gefehlt haben etc.

Nun hat der Googlebot das Konstrukt sicher auch nicht zu 100% erfasst, somit dürften tatsächlich nicht mehr als 50.000 dieser Seiten in den Google Index gelangt sein. Also halb so schlimm, wie’s scheint. Zumindest was den Fall eiqz2q.org angeht.

Was mich aber immer wieder amüsiert (und stört) ist das, was nicht gesagt wird. Neben der Domain eiqz2q.org war auch die Domain t1ps2see.com in der Spam-Diskussion, auf diese ist der gute Adam aber mit keinem Wort eingegangen. Ganz zu schweigen von einigen Dutzend weiterer Spamdomains, deren Ziffern sich oftmals über ganz andere Bereiche erstreckten:

  • 110558.d.t1ps2see.com
  • 423006.xp.wxfuu3.org
  • 320933.pc.ovu22c.org
  • 119624.m.qge6f7.org
  • Wenn man sich diese Größenordnungen ansieht und eine Überschlagsrechnung veranstaltet, dann kommt man locker auf ein paar Millionen Spamseiten im Index. Nicht ganz so spektaklär wie die Milliardenzahlen, aber vertrauenerweckend ist das sicherlich nicht. Insbesondere wegen der erstaunlichen Geschwindigkeit, mit der die Seiten in den Index gelangt sind und aufgrund der Tatsache, dass es sich um brandneue, gerade frisch registrierte Domains gehandelt hat. Da muss Google noch ein wenig am Algo und den Filtern schleifen, damit das besser läuft.

    PS: Über MSN und Yahoo sage ich mal besser nichts ;-)

    Related Articles:


    22. Juni 2006     Analyse, Google, Spam     Trackback-URL     kommentieren

    2 Kommentare

    1. 1 Maria loves pictures:

      Nach der Bennenung der Subdomains beurteilt war der Spammer ein gelangweilter Minderjähriger. Ich dachte die Suchmaschienen wären viel sicherer gegen diese Art von Betrug.

    2. 2 Google holiday shortcuts - SEO Marketing Blog:

      […] Hier bestätigt er, daß die Google Site-Abfrage defekt war (? - ich würde sagen schon länger, und auch immer noch, ist!) und daher deutlich mehr Unterseiten angezeigt wurden als eigentlich im Google-Index vorhanden waren! Das könnte erklären, warum die Site-Abfrage seit Bigdaddy für einige Projekte von uns und Kunden sprunghaft wechselnde Seitenzahlen anzeigt - wobei ich nicht glauben kann, daß das nun bereits wieder repariert sein soll … ;-) Mehr zu dem Mega-Spam Projekt & den Suchmaschinen-Reaktionen in der Folge im SOS-Blog unter “Mega Spam revisited” … 2. Das Buch mit Google-Fun von Philipp Lenssen als PDF zum gratis Download Ich bin wahrscheinlich einer der wenigen weltweit, der einen Screenshot des kurzzeitigen LuLu-Angebotes zum Preis von 13,42 $ für “55 ways to have fun with Google” hat ;-) Mittlerweile kostet das Buch wieder wie ursprünglich angegeben 16,50 $ bei LuLu.com und ist jetzt neu für 19,66 $ auch über Amazon bestellbar. Obwohl mein Buch nur am ersten Tag drei Seiten verloren hatte und sich seither “tapfer gehalten hat”, würde ich beim nächsten Mal aber eher auf die, jetzt nachgeschobene, Gratis-PDF-Ausgabe warten, welches nun online unter 55fun.com gratis zum Download angeboten wird. Irgendwie eine merkwürdige Preis- und Veröffentlichungsstrategie mit inzwischen 3 verschiedenen Preisen für das gleiche Buch, die ich nach wie vor nicht wirklich verstehe? Na wie auch immer - inhaltlich lesenswert ist “55 ways to have fun with Google” als Gratis-PDF-Version mehr denn je … ;-) 3. Google wächst immer weiter Sowohl in Amerika als auch in Deutschland (+ 1%) konnte Google gemäß in Heise & Golem genannter aktueller Statistiken weitere Marktanteile hinzugewinnen. Zitat Heise: Noch eindeutiger scheint die Situation in Deutschland zu sein: Nach den Zahlen von Webhits kommt Google hierzulande auf einen Anteil von 84,7 Prozent bei der Suchmaschinennutzung, Yahoo und MSN liegen abgeschlagen bei 4,3 respektive 4,1 Prozent. […]

    3. RSS-Feed für Kommentare zu diesem Beitrag.

    Kommentar schreiben

    Kommentar

    Du


    Weiterlesen

    « Markenrecht vs. Domainrecht.   WM Live Bilder via ASCII Stream »


    © S-O-S SEO Blog - powered by Suchmaschinen-Optimierung-Seo - basiert auf Wordpress mit Netprofit Wordpress-Theme