Ausverkauf bei AOL - über 500k User -Searchlogs im Netz

Wissen weitergeben...So siehts auch AOL. Und so stellts mal eben Searchlogs aus 3 Monaten von 500´000 Usern ins Netz. Zum Mitnehmen für jeden. Anonymisiert, natürlich. Statt dem Usernamen prangt eine hybsche unique Nummer.

500k User Session Collection
----------------------------------------------
This collection is distributed for NON-COMMERCIAL RESEARCH USE ONLY.
Any application of this collection for commercial purposes is STRICTLY PROHIBITED.

Brief description:

This collection consists of ~20M web queries collected from ~650k users over three months.
The data is sorted by anonymous user ID and sequentially arranged.

The goal of this collection is to provide real query log data that is based on real users. It could be used for personalization, query reformulation or other types of search research.

The data set includes {AnonID, Query, QueryTime, ItemRank, ClickURL}.
AnonID - an anonymous user ID number.
Query - the query issued by the user, case shifted with
most punctuation removed.
QueryTime - the time at which the query was submitted for search.
ItemRank - if the user clicked on a search result, the rank of the
item on which they clicked is listed.
ClickURL - if the user clicked on a search result, the domain portion of
the URL in the clicked result is listed.

Each line in the data represents one of two types of events:
1. A query that was NOT followed by the user clicking on a result item.
2. A click through on an item in the result list returned from a query.
In the first case (query only) there is data in only the first three columns/fields --- namely AnonID, Query, and QueryTime (see above).
In the second case (click through), there is data in all five columns. For click through events, the query that preceded the click through is included. Note that if a user clicked on more than one result in the list returned from a single query, there will be TWO lines in the data to represent the two events. Also note that if the user requested the next "page" or results for some query, this appears as a subsequent identical query with a later time stamp.

CAVEAT EMPTOR --- SEXUALLY EXPLICIT DATA! Please be aware that these queries are not filtered to remove any content. Pornography is prevalent on the Web and unfiltered search engine logs contain queries by users who are looking for pornographic material. There are queries in this collection that use SEXUALLY EXPLICIT LANGUAGE. This collection of data is intended for use by mature adults who are not easily offended by the use of pornographic search terms. If you are offended by sexually explicit language you should not read through this data. Also be aware that in some states it may be illegal to expose a minor to this data. Please understand that the data represents REAL WORLD USERS, un-edited and randomly sampled, and that AOL is not the author of this data.

Basic Collection Statistics
Dates:
01 March, 2006 - 31 May, 2006

Normalized queries:
36,389,567 lines of data
21,011,340 instances of new queries (w/ or w/o click-through)
7,887,022 requests for "next page" of results
19,442,629 user click-through events
16,946,938 queries w/o user click-through
10,154,742 unique (normalized) queries
657,426 unique user ID's

Please reference the following publication when using this collection:

G. Pass, A. Chowdhury, C. Torgeson, "A Picture of Search" The First
International Conference on Scalable Information Systems, Hong Kong, June,
2006.

Copyright (2006) AOL

...lautet die Readme, die noch, im Gegensatz zu den Daten, aufzutreiben war. Der Download wurde mittlerweile abgestellt, Mirrors werden gesucht. Ich bin da zuversichtlich, denn was das Netz hat, lä?ts auch nicht mehr los.

Wie zum Beispiel auch hybsche Googlemirrors, die man auch glatt nochmal auf dem eigenen Space mirrorn kann.

Wenn mir der Download nicht mittendrin gekappt geworden wäre, hätte man hier mit helfen können, dort werden die Daten bereits ausgewertet.

Da lacht der Spammer demnächst. (Gut, der darf ja nicht, denn schlie?lich "Any application of this collection for commercial purposes is STRICTLY PROHIBITED." )

Update: Download läuft. :D
Update: Daten sind da... *Kaffee*

Dazu noch:

Google will not have to hand over any user's search queries to the government. That's what a federal judge ruled today when he decided to drastically limit a subpoena issued to Google by the Department of Justice.

(Link)

Warum auch, wenn es AOL per Haus für jeden liefert?
Sortiert nach Usernamen eindeutiger Usernummer. Wie lang sind die eigentlich schon unterwegs? Wer hat die Daten mit den Realdaten? Mehr Fragen mag ich gerade nicht wirklich in den Raum stellen...

(Hier gefunden)

Noch nen Update: Microsoft baut auch son Quark. Da ist Netscan irgendwie nen völliger Witz gegen.

· Del.icio.us · Stumble it! · Mr Wong · Wer linkt hier her? ·

Gespeichert unter:

, , ,

Schon gelesen?

· Funk- Tattoo · Die Geister, die ich rief... · ScienceTunnel - an den Grenzen von Wissen und Nichtwissen

Da wurde 18 x wat jesacht zu “Ausverkauf bei AOL - über 500k User -Searchlogs im Netz” »»

  1. Getippselt von kamuflaro am 07.08.06 um 8:33

    Können wir den Unsinn nicht gleich überspringen und nen Steuerchip... ich meine Datensammelchip in den Nacken bekommen? :)

  2. Getippselt von missi am 07.08.06 um 8:42

    EXistenZ von Cronenberg hab ich spontan im Hinterkopf. :o)

    Aber Kamu, nu ehrlich... wie sollt ich da meinen Spieltrieb ausleben? Dir den Nacken scannen? :D

  3. Getippselt von kamuflaro am 07.08.06 um 8:43

    Naja, die Daten wären natürlich hochgradig verschlüsselt und nur wer genug Macht hat kann sie auslesen. ^^
    Davon abgesehen, würde ich nicht allen Reiz für dich verlieren, wenn du alles über mich wüsstest Missimausi? :) Seelenstriptease sind hä?lich. ;)

  4. Getippselt von missi am 07.08.06 um 8:58

    Da gabs ein Buch... von... mom.. ->Bücherregal...
    William Gibson/Vernetzt :D

    Verfilmt sogar, ich wu?te, ich kenn die Story :o)

    Ach Kamu, was hei?t Seelenstriptease. Ich wei? bis heute noch nicht mal, wie alt du bist. Und dabei kennen wir uns jetzt wielange? :o)

  5. Getippselt von kamuflaro am 07.08.06 um 9:00

    Ich glaube wir haben viele Nebensächlichkeiten ausgelassen und sind gleich zum vermitteln von nützlichem Wissen übergegangen. :) Wenn du es hättest wissen wollen hättest du in meinem ICQ gesucht (und gefunden).

  6. Getippselt von missi am 07.08.06 um 9:00

    Oh... Ich ähm... hätt dich für jünger gehalten. :D *duck*

  7. Getippselt von kamuflaro am 07.08.06 um 9:02

    Wenn ich eine Frau wäre, dann hätte ich das als Kompliment verstanden. [/Stereotypendenken]

  8. Getippselt von missi am 07.08.06 um 9:06

    Vergessen wir das mit dem Alter wieder. Kaffee?

  9. Getippselt von kamuflaro am 07.08.06 um 9:10

    Korrupt, der Dame verlangt es nach Kaffee!

  10. Getippselt von missi am 07.08.06 um 9:11

    *auflach*

  11. Getippselt von Falk am 07.08.06 um 13:15

    "William Gibson" - na endlich taucht hier mal ein Name auf, den ich kenne - die Neuromancer-Trilogie ist aber auch wirklich empfehlenswert (zum Lesen!). Der Urvater des Cyberspace :)

  12. Getippselt von Korrupt am 07.08.06 um 13:58

    Holla. Da liegt mal wirklich uebles Zeug drin.

  13. Getippselt von Chris am 07.08.06 um 16:58

    Torrent ist chon fein - dann wollen wir mal in 10 min. greppen gehen. :D ;-)

  14. Getippselt von Chris am 07.08.06 um 16:59

    Ich kaufe noch ein "s" dazu - gibbet bestimmt günstig im Searchlog. :D

Trackbacks/Pingbacks»»

  1. Trackback von Missis Notizblock am 08.08.06 um 3:47

    Die Geister, die ich rief...

    AOL zu ihrer Searchlogreleaserei gestern:
    This was a screw up, and we're angry and upset about it. It was an innocent enough attempt to reach out to the academic community with new research tools, but it was obviously not appropriately vetted,...

  2. [...] Woher ich das weiß? Thelma hat nicht nur ein Reallife, nein, Thelma hat auch die Nummer 4417749 in den veröffentlichten und durch Netz gedumpten AOL- Searchlogs. Und Thelma ist nicht wirklich begeistert davon. [...]

  3. Okay, ich gebe zu, daß Wort “Privatsphäre” wird Heuer sehr oft verwand. Das hat aber auch gute Gründe. Denn die Privatsphäre ist vom Aussterben bedroht. Beispiele gefällig? In vielen Blogs wird darüber berichtet. Naja… also was tun gegen die ganze Datensammelei großer Konzerne, für die wir nur Goldesel sind oder die Regierung, für die wir alle als potentielle Terroristen gelten? Chris und Oli von F!XMBR haben ein neues Projekt an den Start gebracht um

  4. Gepingt von Funk- Tattoo » Missis Notizblock am 18.01.07 um 17:46

    [...] Die Frage nach RFID-Chips im Nacken oder Unterarm gabs ja hier im Blog schon desöfteren... Wie wäre es vorerst mit einem stylischen RFID- Tattoo? [...]

  5. Gepingt von Bin ich ein Terrorist? » Missis Notizblock am 26.01.07 um 23:15

    [...] Wir hatten es aktuell mit der AOL- Searchlogreleaserei. Viele der Suchstrings waren völlig harmlos, andere hingegen hatten schon den ein oder anderen erschreckenden Charakter. Und es gab auch Menschen hinter dieser Sache... bei denen sich, aus scheinbar harmlosen Suchanfragen, komplette Profile erstellen ließen. Die Dame hat nichts verbrochen, das ist alles garnicht so schlimm, mag der ein oder andere jetzt denken. Wir unterhalten uns noch einmal darüber, wenn deine Nachbarin dich auf deine Hämorrhoiden anspricht. [...]


Ick will mal wat sagen... »»

Datenschutzhinweis

firewall needs cooling