AOLs Keyword-Datenbank
Meine Güte. Da hat sich AOL aber einen Mega-Knaller geleistet. Auf der Seite Test-Collections hatte AOL-Research bis vor kurzem ein megafettes Datenfile zum Download angeboten, nach dem sich jeder Marketingler die Finger lecken, manch SEO seine Frau verkaufen und manch Spammer seine Schwiegermutter ermorden würde. Gelesen davon habe ich bei PlentyofFish-Macher Markus Frind und konnte es kaum glauben.
AOLResearch hat ein Datenfile ins Netz gelegt, in dem die Suchanfragen von 500.000 Usern, über einen Zeitraum von 3 Monaten zusammengefasst und leicht anonymisiert, angeboten wurden. Was für eine Fundgrube. Was für ein Leichtsinn. AOL gibt damit quasi Google-Daten an die Öffentlichkeit. So etwas habe ich mir zwar immer gewünscht, es aber nicht für möglich gehalten, dass es jemals passiert. Ein SEO-Traum. Und ein Alptraum für Google. Kein Wunder also, dass der Spuk nicht lange währte. Mittlerweile hat AOLResearch die Webseiten gecleant und den Downloadlink entfernt. Anbei noch ein Screenshot der belegt, dass es wirklich kein Traum war.
Das Korpus delikti: 500k User Queries, Sampled over 3 month
Welch ein Lapsus. Was man mit den Daten alles anfangen kann und wie wertvoll die Zusatzinformationen in den Logfiles waren zeigen einige Analysen von Markus Frind.
Update: Sehe gerade bei Thomas, dass die Meldung auch schon durch den Heise-Ticker gelaufen ist.

Kommentar | 7. August 2006 um 11:56 | individueller Kommentarlink
Und wo bekomme ich das File jetzt her?
Kommentar | 7. August 2006 um 12:05 | individueller Kommentarlink
Nice! :-)
>> Naja sichr an den einschlägig bekannten Stellen, the darkside of web ;-)
Kommentar | 7. August 2006 um 12:50 | individueller Kommentarlink
Noch ein Nachtrag. Ausgepackt werden aus den ursprünglichen 450 MB insgesamt 2,12 GB Daten.
Kommentar | 7. August 2006 um 13:18 | individueller Kommentarlink
79 Downloads. Vielleicht kann man es ja käuflich erwerben demnächst.
http://72.14.207.104/search?q=cache:2Qvd2z9VbuIJ:research.aol.com/pmwiki/pmwiki.php%3Fn%3DResearch.500kUserQueriesSampledOver3Months+&hl=en&gl=us&ct=clnk&cd=1
Kommentar | 7. August 2006 um 15:26 | individueller Kommentarlink
>>Noch ein Nachtrag. Ausgepackt werden aus den ursprünglichen 450 MB insgesamt 2,12 GB Daten.
2,17 Gig ;-)
Pingback | 7. August 2006 um 16:43 | individueller Pingbacklink
[…] Auf den Seite von AOL Research wir die Datei jetzt auf jeden Fall nicht mehr zum download angeboten. Den Beweis, dass das 440 MB !!!! File vorhanden war, findet ihr in Form eines Screenshots in Geralds SEO Blog oder im Google Cache (05. August). […]
Trackback | 7. August 2006 um 17:36 | individueller Trackbacklink
Verraten und Verkauft
AOL hat lt. Heise eine Datei mit Suchanfragen von 500.000 Usern veröffentlich und es offensichtlich nicht für notwendig gehalten, diese Daten anständig zu anonymisieren. Lediglich die Screennames verschwinden, aus den Anfragen selbst la…
Kommentar | 7. August 2006 um 17:40 | individueller Kommentarlink
Hmmm… komisch, dass mapquest so weit oben auftaucht. Login und Anmeldung bei diesem Dienst funktionieren schon ewig und drei Tage nicht mehr.
Pingback | 7. August 2006 um 19:13 | individueller Pingbacklink
[…] Fürs erste Respekt an die Leute, die diese Aktion bei AOL in die Wege geleitet haben. Ich weiss nicht, ob es Dummheit oder wirklich nur Neugierde war, aber AOL hat tatsächlich eine ~450MB Große Datei onlinegestellt, die von 500 Tausend Usern die Suchanfragen beinhaltet (Screenshot). Mittlerweile haben sie es offline gestellt, es gibt aber Mirror, wo man sich diese Datei noch runterladen kann. […]
Kommentar | 8. August 2006 um 09:44 | individueller Kommentarlink
Ja, das ist nen Knaller - aber leider haben die Amis 1. ganz andere Suchangewohnheiten wie wir Deutschen, 2. Sind die Keywords ja doch alle englisch - also wenn uns die Analyse etwas zu nutze ist, dann für die Optimierung von englischsprachigen internationalen Sites.
Wer noch Interesse am File hat, hier ist eine Liste von Mirrors - denn pfiffige leute waren schnell ;) http://www.gregsadetsky.com/aol-data/
Kommentar | 8. August 2006 um 18:48 | individueller Kommentarlink
alternativ gibts nun das file auch in p2p networks.
Pingback | 9. August 2006 um 09:39 | individueller Pingbacklink
[…] AOL stellt “versehentlich” Keyword-Datenbank online Der Beitrag wurde am 9. August 2006 von Oliver Karthaus veröffentlicht AOL hatte in den vergangenen Wochen “versehentlich” eine Keyword-Datenbank mit 500.000 User-Queries, die über einen Zeitraum von 3 Monaten gesammelt wurden und in denen die User mit Nummern anonymisiert wurden, in seinen Test-Collections online gestellt. Diese News gingen wie ein Lauffeuer durch alle Medien und besonders in der Bloggerwelt schlug es hohe Wellen. Zwischenzeitlich hat AOL die Angelegenheit öffentlich bedauert (so gut, wie das eben bei einer solchen Dummheit möglich ist). So weit so schlecht für AOL, denn wie bereits von einigen befürchtet, konnten anhand der Keywords eindeutig Nutzer identifiziert werden. Nummer 4417749 aus der AOL-Datei ist Frau Arnolds aus dem US-Bundesstaat Georgia. Sie suchte nach “60 single men”, “dog that urinates on everything” oder “numb fingers” und laut der NY Times war es kein großes Problem, ihrer “Spur” zu folgen und sie zu finden. Und es soll bereits weitere identifizierte Nutzer geben. Unter den Suchbegriffen waren auch ziemlich “eindeutige”, wie z.B. “child porn” oder “how to kill a wife”, was nun natürlich auch die Behörden mit auf den Plan ruft. Auf dem sind die Datenschützer schon lange. Experten gehen wohl davon aus, dass alleine hier rund 700 Millionen Dollar Schadenersatz auf AOL zukommen. Ganz schön in die Sch… gegriffen, AOL. Bei solch einer Fahrlässigkeit bleibt mir wirklich die Spucke weg. Mal sehen, wie viele Nutzer bald noch öffentlich ihren Namen in den News lesen können, weil sie “drin” sind. Abgelegt in Suchmaschinen, Rechtliches […]
Pingback | 9. August 2006 um 15:02 | individueller Pingbacklink
[…] Es war nur eine Frage der Zeit, bis die erste Identität eines AOL-Research Opfers offengelegt werden würde. Das Adult Webmaster Blog weist im Rahmen seines AOL-Artikels u.a. auf einen Artikel der NewYork Times(kostenlose Registrierung erforderlich) hin, in welchem die Identität von AOL-User Nr. 4417749 aufgedeckt wurde. So weit so schlecht für AOL, denn wie bereits von einigen befürchtet, konnten anhand der Keywords eindeutig Nutzer identifiziert werden. Nummer 4417749 aus der AOL-Datei ist Frau Arnolds aus dem US-Bundesstaat Georgia. […]
Pingback | 10. August 2006 um 11:31 | individueller Pingbacklink
[…] Wie schon fast überall geblogged hat AOL ja kürzlich versehentlich (?) ein Datenfile mit einer halben Million Suchanfragen ins Netz gestellt. Schnell wurde das File von AOL wieder gelöscht, Mirrors finden sich allerdings jede Menge … […]
Pingback | 11. August 2006 um 17:47 | individueller Pingbacklink
[…] Geschrieben von Elias am 11 Aug 2006 um 04:46 pm | Veröffentlicht in: Internet Golem berichtete. “Die Anfragen von einer halben Million AOL-Kunden waren im Internet einsehbar. Auf der Forschungsseite von AOL wurde ein Archiv mit Suchanfragen von 500.000 seiner Kunden veröffentlicht. Auch wenn die Screen-Namen überschrieben wurden, erlauben die zu einer Person gesammelten Suchanfragen möglicherweise deren Identifizierung, lautet die Kritik daran. AOL hat das Archiv mittlerweile vom Netz genommen.“ Das wäre genauso, als würde AOL Kreditkarten- und andere persönliche Daten verschenken. Inzwischen bereut man den Fehler und entschuldigt sich. Ob es was nützt? Wohl kaum… […]
Kommentar | 17. August 2006 um 15:48 | individueller Kommentarlink
Schade, daß dieser “Fehler” nicht das deutsche AOL betraf - aus diesem hätte man, jedenfalls für uns, wichtigere Daten entziehen können.
Dennoch wird dieser Datensatz eine interessante Bettlektüre werden. Ich habe schon 300 Titenpatronen bestellt um es dann auszudrucken. Nein Spass! :-)
kind regards
Jeanot Bruchmann
Kommentar | 10. September 2006 um 22:53 | individueller Kommentarlink
Gut gemacht, Männer!:)
Kommentar | 29. September 2007 um 14:30 | individueller Kommentarlink
wow, 500.000 net schlecht. Muss ich mal ein Blick reinwerfen, könnte nützlich sein.