Zurück zur Blogübersicht
SEO

Wurden die Seiten erst einmal durch den Crawler herunter geladen, wenn die robots.txt sie nicht gerade blockiert hat, so entsteht die nächste Herausforderung. Die bereits besuchten Seiten müssen auf einem aktuellen Stand gehalten werden.

Dabei muss immer berücksichtigt werden, dass die Anzahl der an einem Tag besuchbaren Seiten begrenzt ist. Diese Problematik soll an einem Beispiel kurz verdeutlicht werden.

Es wird angenommen, dass ein sehr kleiner Crawler verwendet wird, welcher lediglich eine Seite pro Tag besuchen und aktualisieren kann. Weiter wird davon ausgegangen, dass das Internet nur zwei Seiten besitzt. Die Seiten werden als e1 und e2 bezeichnet. Die Seite e1 ändert sich neunmal am Tag und die Seite e2 ändert sich einmal am Tag. Die Frage die es zu beantworten gilt ist welche Seite der Crawler bei der Aktualisierung bevorzugen soll. Die unten stehende Grafik stellt das bisher beschriebene Szenario noch einmal dar.
 

Quelle: Searching the Web

Der Nutzen bzw. die Freshness einer Seite lässt sich wie folgt berechnen

Es wird davon ausgegangen, dass der Crawler die Seite zur Tageshälfte besucht. Somit erhält man für e2 einen Nutzen von 1/2 Tag. Die Wahrscheinlichkeit das e2 sich vor der ersten Tageshälfte ändert liegt bei 1/2. Also liegt der Nutzen e2 zu aktualisieren bei 1/2 x 1/2 Tag = 1/4 Tag. Wird die gleiche Berechnung für e1 durchgeführt so erhält man einen Nutzen von 1/36 Tag. Demzufolge ist es sinnvoller e2 zu aktualisieren.

In der Praxis ist natürlich nicht bekannt, innerhalb welchen Intervalls sich Seiten ändern. Des Weiteren würde sich das Alter der Daten von e1 immer weiter steigern, falls jedes Mal nur e2 aktualisiert würde. Cho und Garcia-Molina haben mathematisch gezeigt, dass einheitliche Aktualisierungsstrategien proportionalen immer vorzuziehen sind, da sie bei jeder Anzahl von Seiten und unterschiedlichen Aktualisierungsfrequenzen jeweils bessere oder zumindest vergleichbare Ergebnisse liefern. Des Weiteren zeigt Ihre Arbeit auf, wie man die optimale Auffrischungsstrategie erhält, wenn die Änderungsraten der Seiten bekannt sind.

Die oben stehende Grafik zeigt einen Graph, der für jede Änderungsrate y die Häufigkeit angibt, in der die Seite besucht werden soll. Unten stehende Grafik zeigt hingegen auf, wie oft die jeweilige Seite besucht werden sollte, damit das Alter einer Seite nicht bis ins Unendliche ansteigt. Die beiden Abbildungen sind auf Basis eines konkreten Beispiels konstruiert worden, bei dem fünf Seiten mit Änderungsraten von 1 bis 5 Änderungen täglich betrachtet wurden und bei dem täglich fünf Seiten besucht werden konnten. Die Graphen lassen sich mittels eines Faktors auf jede beliebige Datensituation anpassen, so dass man die jeweils optimale Strategie erhält.

Quelle: Synchronizing a Database

Konkret heißt das für Sie, dass Ihre Seite aktualisiert werden muss, damit der Crawler öfters bei Ihnen vorbeikommt um Ihre Seite zu aktualisieren. Der Google-Crawler macht dies auch in Abhängigkeit des Page-Ranks. Um so höher der Page-Rank desto wichtiger ist Ihre Seite und umso öfter kommt der Crawler bei Ihnen vorbei.