InWissenswertes

Inverse Dokumenthäufigkeit

Die Inverse Dokumenthäufigkeit beschreibt die Gewichtung eines bestimmten Terms in Bezug auf alle indexierten bzw. in der Datenbank vorhandenen Dokumente. Das bedeutet, dass ein Term an Gewichtung zunimmt je seltener dieser in der Gesamtzahl der Dokumente vorkommt. Die Formel für die Berechung wird wie folgt beschrieben.

IDF = Gesamtzahl der Dokumente / Dokumente in denen Term vorkommt

Die Berechnung für die Anzahl der Dokumente ist relativ einfach. Unter dem Menüpunkt Suchmaschinen Architektur – Allgemein wurde dargestellt wie Crawler Dokumente indexieren. Der Invertierte Index stellt dabei in einer Tabelle für jedes Wort die entsprechenden Dokumente dar. Somit muss lediglich die Summe der Dokumente berechnet werden in dem ein bestimmtes Wort vorkommt.


Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *