Welche Seite soll der Crawler downloaden?

Crawler haben die Aufgabe für die Internetnutzer die interessantesten Informationen zusammenzutragen. Ein Crawler ist allerdings in seiner Leistungsfähigkeit auf zwei verschiedenen Gründen eingeschränkt. Der erste Grund dafür liegt darin, dass dem Crawler zumeist nur eine begrenzte Speicherkapazität zur Verfügung steht. Bei einem ständig wachsenden World Wide Web, das schon eine Größe von mehreren Terabytes erreicht hat, kann es durchaus vorkommen, dass nicht jedes System alle Daten speichern kann bzw. will. Ein weiterer Grund besteht darin, dass der Crawling-Vorgang sehr zeitintensiv ist. Doch das Internet bzw. die Inhalte im Internet verändern sich. Diese Inhalte müssen neu aufgenommen werden und dafür muss der Crawler die Seite noch einmal besuchen.   Demzufolge ist es wichtig, dass ein Crawler zunächst “wichtige” und informationsreiche Seiten wie bspw. spiegel.de besucht und erst danach die weniger hoch eingestuften Seiten wie bspw. die Seite eines Vereines.

Daher ist es notwendig, dass ein Crawler durch Priorisierung von URLs zuerst die “wichtigen” Seiten aufsucht. Es stellt sich dabei die Frage, welche Seiten als wichtig erachtet werden und welche nicht. Damit ein Crawler die Wichtigkeit einer Seite berücksichtigen kann, muss ein Maß definiert werden, mit dessen Hilfe die Bedeutung abgeschätzt werden kann. In der Praxis werden z.B. die Folgenden Kennzahlen benutzt: das Ähnlichkeitsmaß, das Backlink-Counting und Location-Maß. Beim Ähnlichkeitsmaß wird denjenigen Seiten die höchste Bedeutung beigemessen, bei denen die relative Häufigkeit der in der Abfrage enthaltenen Wörter am höchsten ist. Wird jedoch das Backlink-Counting verwendet, so erhält die Seite die höchste Priorität, auf die die meisten externen Seiten verweisen. Beim Location-Maß spielt der Inhalt der URL-Adresse selbst die ausschlaggebende Rolle für die Prioritätsverteilung.

Wie oft wird eine Seite von einem Crawler besucht um Aktualisierungen aufzunehmen?

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>