Das Vektorraummodell

Das Vektorraummodell stellt eines der bekanntesten Verfahren aus der Welt der Information Retrieval-Systeme dar. Es wurde ursprünglich im Rahmen der Arbeiten am SMART-Projekt entwickelt. SMART ist ein experimentelles Retrievalsystem, das von Gerard Salton und seinen Mitarbeitern seit 1961 zunächst in Harvard und später in Cornell entwickelt wurde. In den 80er Jahren wurde das Modell nochmals von Wong und Raghavan überarbeitet.

Das Grundprinzip des Vektorraums ist relativ simpel aufgebaut. Das Modell spannt zwei Vektoren mit der Dimension n auf. Ein Vektor wird für die Suchtherme aus den Dokumenten bereits nach der Indexierung angelegt. Der zweite Vektor wird erstellt, sobald ein Nutzer eine Suchanfrage startet. Die Vektoren werden nach der Eingabe der Anfrage miteinander verglichen und sofern eine Übereinstimmung der Vektoren gegeben ist, wird das Dokument als Relevant betrachtet.

Folgendes Beispiel soll dieses Prinzip verdeutlichen. Nehmen wir an ein Text einer Internetseite lautet:

Suchmaschinenoptimierung oder keine Suchmaschinenoptimierung ist die Frage, wenn Suchmaschinenoptimierung teuer ist.

Durch entsprechende Stoppworterkennung erhält man zwei Terme (Stoppwörter sind Wörter die in einem Text sehr häufig vorkommen und für die Bewertung in der Regel keine Rolle spielen).  “Suchmaschinenoptimierung” und “Frage”. Wir erhalten demnach einen 2-dimensionalen Vektor, welcher in diesem Zusammenhang als Dokumentvektor bezeichnet wird.

Dokumentvektor = (3,1)

Es gibt nun zwei Arten die es beim Vektorraummodell zu unterscheiden gilt. Dies sind zum einen das binäre Modell und zum anderen das gewichtete Modell. Der binäre Ansatz normiert den bestehenden Vektor und es wird lediglich entschieden, ob ein Term in einem Dokument enthalten ist oder nicht. Der oben genannte Dokumentvektor sieht dann wie folgt aus.

Dokumentvektor = (1,1)

Wird nun eine Suchanfrage eingegeben bspw. “Suchmaschinenoptimierung”, wird ein weiterer Vektor aufgespannt, welcher in diesem Beispiel als Anfragevektor bezeichnet ist.

Anfragevektor = (1,0)

Unten stehende Grafik veranschaulicht die beiden Vektoren. Je größer der Cosinus-Wert ist, desto besser passen die Vektoren zu einander und somit kann entschieden werden, welche Dokumente als Relevant anzusehen sind.


Die große Schwäche des binären Ansatzes liegt darin, dass die Mächtigkeit eines Vektors nicht beachtet wird. Das heißt es wird nicht berücksichtigt wie häufig ein Term in einem Dokument vorkommt. Es gibt hierzu verschiedene Ansätze um dieses Problem zu lösen. Es gibt hierzu das gewichtete Verfahren, welches die Mächtigkeit des Vektors bei der Auswertung berücksichtigt oder es werden weitere Bewertungsfaktoren zu dem binären Ansatz hinzugezogen. In der nachfolgenden Grafik wird das Szenario des gewichteten Verfahrens dargestellt.

Für die Veranschaulichung wurden in diesem Modell zwei Dokumente dargestellt. Dabei wird deutlich, dass es nicht mehr wichtig ist wie groß der cosinus-Winkel ist, sondern wie weit die Dokument-Vektoren vom Anfrage-Vektor entfernt sind.

Das Voktorraummodell alleine führt bei den moderne Suchmaschinen nicht zu dem Ranking. Es werden weitere Verfahren hinzugezogen.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>