In Serie abrufen

Suchmaschinen bekommen Konkurrenz. Künftig soll selbstlernende Software Surfern den Weg weisen.

WIRTSCHAFTSWOCHE 10/1999

Alexa ist anhänglich. Hat man sie erst einmal auf seinem Computer installiert, wird man sie nicht mehr los. Jedenfalls nicht als normaler Computernutzer. Ruft man eine beliebige Web-Seite auf, ist Alexa sofort zur Stelle und macht ungefragt mehr oder weniger nützliche Vorschläge für den nächsten Surftrip – und ein bisschen Werbung. Freilich reicht ihre Künstliche Intelligenz bis dato nicht so weit, dass sie es bemerken würde, wann sie mit ihren Einblendungen lästig wird. Alexa ist eine Software, die Internetsurfern helfen soll, Informationen zu finden.

Doch nicht jeder ist davon begeistert. „Wie deinstalliert man dieses Miststück?“ poltert ein anonymer Surfer auf der Feedback-Web-Seite der Firma Alexa Internet. Ein Mensch namens Joe schimpft dortselbst: „Ich hasse es! Es hat sich automatisch auf meinem Computer installiert, und ich wollte es gar nicht.“ Bei manchen Leuten scheint sich das Programm sogar völlig unbemerkt auf die Festplatte geschlichen zu haben – etwa bei jener ahnungslosen Dame, die sich den E-Mail-Spitznamen „A. Louise C.“ gegeben hat: „Ich habe keinen Schimmer, was diese Alexa ist. Warum ist sie in meinem PC?“

Schuld an dem Ärger ist einer, der es eigentlich nur gut gemeint hat: Brewster Kahle, 39, aus San Francisco, eine international anerkannte Koryphäe auf dem Gebiet des sogenannten Information Retrieval, dem gezielten Finden von Informationen im Internet. Seit über zehn Jahren versucht der Absolvent des Massachusetts Institute of Technology (MIT), Computern beizubringen, aus unüberschaubaren Datenbergen wertvolle Informationen herauszusieben.

Genau das ist auch der Anspruch, den Kahles Unternehmen Alexa Internet erhebt – nur daß die kostenlos aus dem Netz abrufbare Software Alexa 3.0, die sich bei Joe, Louise und dem Anonymus im Microsoft Internet Explorer festgekrallt hat, nach Einschätzung der US-Fachzeitschrift „PC Magazine“ ihren Zweck „bei weitem nicht perfekt“ erfüllt. Jedenfalls noch nicht.

Das ist für eine Menge Menschen, die in der Internetbranche ihr Geld verdienen, eine beruhigende Nachricht. Wäre Alexa ein völlig ausgereiftes Produkt, könnten die Betreiber sämtlicher Suchmaschinen – von Altavista über Netcenter und Web.de bis Yahoo – sofort ihre Läden zusperren.

Die grundlegende Idee von Kahle und seinem Kompagnon Bruce Gilliat ist so bestechend wie simpel: Der Zentralrechner in San Francisco registriert die digitalen Spuren, die Hunderttausende von Alexa-Nutzern bei ihrem Weg durchs Web hinterlassen, und destilliert aus diesen Daten die häufigsten – und damit vermutlich sinnvollsten – Querbeziehungen zwischen den unterschiedlichsten Seiten.

Je mehr Menschen Alexa auf ihrem Computer haben, desto mehr Daten können ausgewertet werden, und um so zuverlässiger funktioniert nach Kahles Theorie auch das System: Wie ein virtueller Organismus sammelt die Gesamtheit der Netznutzer kollektive Erfahrungen, die jedem einzelnen die Orientierung im Datendschungel erleichtern sollen. Die Rolle der Suchmaschinen würde sich darauf reduzieren, den Einstiegspunkt für die Reise zu finden.

In der Praxis hängt die Trefferquote von Alexa allerdings sehr davon ab, zu welchem Themengebiet man gerade Informationen sucht und wie sehr man in die Tiefe gehen will. So meckert ein gewisser Ted Knudson über die „blödesten Links, die ich je gesehen habe“, während offensichtliche Internetnovizen Alexa oft über den grünen Klee loben. Tatsächlich ist schwer nachvollziehbar, wieso ein direkter Weg von einem amerikanischen Softwarekatalog schnurstracks zum Fahrplan der Deutschen Bahn AG führt. Außerdem offenbart die Software systematische Schwächen. So tendiert Alexa dazu, Rückkopplungsschleifen zu bilden, die Fehler verstärken: Ist ein unsinniger Link, wie er in Suchmaschinen alle Tage vorkommt, erst einmal in der Software fest etabliert, führt er immer mehr Leute in die Irre; diese Irrwege wiederum interpretiert der Zentralrechner automatisch als Bestätigung dafür, dass es einen logischen Zusammenhang zwischen den Adressen gibt. Außerdem ist das System keineswegs missbrauchssicher: Kleinere Unternehmen können sich leicht an einen bekannten Konkurrenten anhängen, indem sie immer wieder von dessen Website aus ihre eigene anwählen – so lange, bis Alexa dies registriert und einen Link einrichtet.

Dann wird jeder, der die Homepage des großen Unternehmens aufruft, automatisch auch mit der des kleinen verbunden. Alexa entscheidet nicht nur darüber, wohin die bisher gut eine Million Surfer geleitet werden, die sich die Software auf den Rechner geladen haben. Im millionenfach verbreiteten Netscape-Browser Communicator 4.5 sind Alexas Verkupplungskünste sogar serienmäßig abrufbar – als „Verwandte Objekte“.

Vor allem aber ist das kalifornische Unternehmen die bestsortierte Auskunftei, was Informationen über Firmen-Websites angeht: Seit fast drei Jahren durchkämmen Kahles Leute per Suchroboter immer und immer wieder das gesamte World Wide Web (WWW) – und speichern alles, was sie finden. Dieses „Internet Archive“ (siehe Kasten) soll zwar eigentlich der Allgemeinheit dienen; Kahle will das WWW der Jahrtausendwende für die Nachwelt erhalten, damit die Kulturhistoriker künftiger Generationen unsere Epoche nachvollziehen können. Das Archiv wirft aber gleichzeitig viele statistische Daten ab, die kommerziellen Wert haben. Man kann daraus eine Menge erfahren: Wie gut ist die Website meines Konkurrenten besucht? Wie schnell ist sein Server? Wer verbirgt sich wirklich hinter einer Seite? Welcher Dienstleister hat welche Kunden?

Die Transparenz, die Kahle damit schafft, geht manchem Betroffenen denn auch zu weit. „Ich war baff, dass ihr Burschen die Nerven habt, meine private Adresse und Telefonnummer für jedermann offen anzuzeigen“, entrüstet sich ein gewisser Joe – und droht mit einer Klage. Kolumnisten der amerikanischen Fachpresse stoßen ins gleiche Horn: Alexa sei anmaßend, lautet der Tenor, nicht zuletzt, weil der eingesetzte Datenstaubsauger nicht einmal vor den Diskussionsforen im Internet halt macht. Und was dort steht, ist nach den Regeln der sogenannten Netiquette nicht für Außenstehende gedacht.

Wer sich von der Aufregung der Fachleute bisher nicht hat anstecken lassen, sind die aufs Internet spezialisierten Wall-Street-Analysten. Sie scheinen Kahle nicht zuzutrauen, daß er seine Ziele wirklich realisieren kann. In den Aktienkursen von Yahoo & Co. haben seine Aktivitäten nicht einmal eine kleine Delle hinterlassen.

ULF J. FROITZHEIM

WEB-ARCHIV

Dummes Zeug für die Ewigkeit

Alle sechs Wochen saust der große Datenstaubsauger von Brewster Kahle durch das ganze World Wide Web. Der Chef des Softwarehauses Alexa Internet hat es sich in den Kopf gesetzt, ein möglichst vollständiges Abbild der gegenwärtigen Netzinhalte zu konservieren.

Schon mehr als zwölf Terabytes (12000000000000 Bytes) hat er bereits in seiner robotergesteuerten Magnetbanddatenbank gespeichert: wissenschaftliche Arbeiten ebenso wie Homepages von
Unternehmen, Pin-up-Fotos von Pamela Anderson und Pornobilder.
Nutzen läßt sich das Alexa-Know-how durch einen gleichnamigen Zusatz zur Internetsteuersoftware (Browser). Er erzeugt bei der Fehlermeldung „Error 404 – File not found“ das Wörtchen „Archive“, wenn die verschollene Seite in Kahles Archiv zu finden ist.

Bei Inhalten, die selten aktualisiert werden, ist die Chance groß, fündig zu werden. Kostenpflichtige Zeitungsarchive hingegen sind damit nicht zu ersetzen, denn auch aktuelle Medien werden nicht öfter gescannt. Damit vermeidet Kahle größere Streitereien ums Urheberrecht, denn er zahlt für die Speicherung fremder Texte keine Tantiemen.

Im Kreuzfeuer der Kritik steht der selbsternannte Archivar dennoch: Datenschützer sind empört, daß damit jedes Wort, das jemand irgendwann online geäußert hat, mit großer Wahrscheinlichkeit auf Dauer dokumentiert wird. So gibt es bereits Arbeitgeber, die sich via Internet informieren, was ein Jobbewerber schon so alles von sich gegeben hat. Das Internetarchiv ist erbarmungslos: Dummes Zeug, das einmal darin gelandet ist, läßt sich nicht mehr löschen.

UJF