Binärsystem
SEO

Was ist die robots.txt und warum ist sie wichtig für SEO?


Die robots.txt Datei ist eine reine Textdatei, die Informationen darüber enthält, welche Bereiche einer Website von Robots (User-agent) besucht werden dürfen und welche nicht. Dabei kann je nach Bot unterschieden werden. Sie haben also beispielsweise die Möglichkeit über die robots.txt die Anweisung zu geben, dass der Googlebot Ihre komplette Seite crawlen darf und der Bingbot nur einen bestimmten Bereich. 

Grundsätzlich ist die robtos.txt somit dazu gedacht die komplette Website, Verzeichnisse, Unterverzeichnisse oder einzelne Dateien für bestimmte Crawler oder alle Crawler zu sperren. Es gibt keine Garantie, dass sich ein Bot an die Anweisungen der robots.txt hält. Jedoch geben Google und Bing an, dass sie den Anweisungen Folge leisten.

Pro (Sub-)Domain kann es nur eine robots.txt Datei geben. Sie wird im Root-Verzeichnis der Domain abgelegt und muss exakt so benannt werden. Sie stellt zudem das erste Dokument dar, dass ein Bot aufruft, der eine Website besucht.

Aufbau einer robots.txt

Beispiele für den Aufbau

Kein Suchmaschinen-Bot erhält Zugriff auf die Website:
User-agent: *
Disallow: /
„*“ bedeutet, dass alle Bots von der folgenden Anweisung betroffen sind. „/“ bedeutet, dass das Root-Verzeichnis und alle Unterverzeichnisse gesperrt sind.

Allen Bots Zugriff auf die Website gewähren:
User-agent: *
Disallow: 
Durch das Fehlen einer Angabe hinter „Disallow:“ wird nichts gesperrt.

Für einen bestimmten Bot ein bestimmtes Verzeichnisses und Datei sperren:
User-agent: Bingbot
Disallow: /wishlist/
Disallow: /admin.html
Für den Bot von Bing ist das Verzeichnis „/wishlist/“ und die Seite „/admin.html“ gesperrt.

Weiter ist es möglich, den Zugriff auf spezifische Dateien oder Verzeichnisse explizit zu erlauben:
User-Agent: *
Disallow: /
Allow: /images/
Hier ist es den Bots nur erlaubt, auf das Verzeichnis „/images/“ zuzugreifen, der Rest der Website ist gesperrt.

 

Anbei eine Liste einiger bekannter Bots mit den dazugehörigen User-Agent Bezeichnungen.

 

Crawler User-agent
Google Googlebot
Googlebot für Nachrichten Googlebot-News
Googlebot für Bilder Googlebot-Image
Googlebot für Videos Googlebot-Video
Yahoo Slurp
Bing Bingbot
MSN Msnbot

Wildcards

In der robots.txt können zwei verschiedene Wildcards genutzt werden:
* = ersetzt beliebig viele Zeichen
$ = drückt ein Zeilenende aus

Ein Beispiel hierzu:
User-agent: *
Disallow: /wishlist*/
Disallow: /*tellafriend/
Disallow: /*.raw$
Hier werden alle Verzeichnisse gesperrt, die mit „wishlist“ beginnen, alle Verzeichnisse, die „tellafriend“ beinhalten und alle Dateien, die auf „.raw“ enden.

 

Hinterlegen der XML-Sitemap

Neben dem Sperren spezifischer (Teil-)Bereiche für Bots haben Sie in der robots.txt zudem die Möglichkeit, die URI zur XML-Sitemap zu hinterlegen. Im Gegensatz zur robots.txt muss diese auch nicht im Root-Verzeichnis abgelegt werden und kann einen beliebigen Namen tragen.

Ein Beispiel für einen Verweis zur XML-Sitemap sieht folgendermaßen aus:
Sitemap: www.meinedomain.de/sitemap.xml

 

Nutzen von Kommentaren

Beginnt eine Zeile mit „#“ handelt es sich um eine Kommentarzeile. Diese wird von Bots ignoriert.

Beispiel für eine Kommentarzeile:
User-agent: *
Disallow: /wishlist/
# Wishlist gesperrt am 22.01.2018

 

Kontrolle der robots.txt mit der Google Search Console

Mithilfe des „robots.txt-Testers“ in der Google Search Console (zu finden unter „Crawling“) kann die erstellte robots.txt auf die korrekte Funktionalität geprüft werden. Zudem können Änderungen an der robots.txt mit dieser Funktion getestet werden.

 

 

Die Überprüfung der robots.txt sollte unbedingt vorgenommen werden. Schon ein kleiner Buchstabendreher oder Tippfehler kann dafür sorgen, dass Bots von wichtigen Verzeichnissen oder gar Ihrer gesamten Website ausgeschlossen werden.

 

Auswahl von zwei Anwendungsfälle

Das Sperren von User-spezifischen Seiten

Sind Sie Besitzer eines Online Shops stellt die robots.txt eine exzellente Möglichkeit dar, User-spezifische Seiten, die nicht im Index der Suchmaschinen landen sollen, vom Crawling auszuschließen. Oft dreht es sich dabei beispielsweise um Verzeichnisse wie /checkout/, /tellafriend/ oder /wishlist/.

 

Das Sperren von Testsystemen

Nutzen Sie ein Testsystem, um Änderungen an Ihrer Website vorab zu testen? Das Testsystem sollten Sie unbedingt für Suchmaschinen sperren. Schließlich möchten Sie nicht, dass unfertige Seiten im Index landen oder gar mit den Seiten Ihres Livesystems um Rankings konkurrieren.

 

Fazit - wichtige Bedeutung der robots.txt für SEO

Der robots.txt kommt in der Suchmaschinenoptimierung eine wichtige Bedeutung zu, da sie die Möglichkeit bietet, das Verhalten von Suchmaschinen-Bots zu steuern. 

Jedoch birgt die Verwendung auch einige Risiken. Eine zu starke Einschränkung kann Rankingnachteile nach sich ziehen. Durch externe Backlinks ist es dennoch möglich, dass Seiten in den Suchergebnissen ausgespielt werden, die durch die robots.txt gesperrt sind. Dann wird normalerweise ein nicht sehr ansprechender Platzhaltertext anstelle der Meta Description ausgespielt. Dieser lautete bis vor Kurzem noch „Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar.“ und lautet seit Ende 2017 „Für diese Seite sind keine Informationen verfügbar.“.
 

 

Dieser Darstellung in den Suchergebnissen verdeutlicht nochmals, dass die robots.txt dazu dient, das Crawling der Bots zu steuern, nicht aber die Indexierung Ihrer Seite. Um bereits indexierte Seiten aus dem Index zu entfernen, sollte stattdessen zum „noindex“ Robots Meta Tag gegriffen werden.

Eine zu offene Einschränkung kann bewirken, dass beispielsweise User-spezifische Seiten wie Wunschlisten oder viele Seiten mit ähnlichen oder identischen Inhalten indexiert werden. Diese würden in den Suchergebnissen dann gegeneinander konkurrieren und unter Umständen dafür sorgen, dass keine Ihrer Seiten gut rankt.

Besonders wichtig ist es auch auf die Korrektheit der Datei zu achten und diese vorab in der Google Search Console zu testen. Ein Fehler in der robots.txt kann fatale Auswirkungen auf Ihre Rankings haben.

Die robots.txt bietet Ihnen zudem die Möglichkeit, Ihr Crawling Budget effizient zu nutzen, indem Sie vorgeben, welche Inhalte unwichtig für Ihre Darstellung in den Suchergebnissen sind. Jede Website erhält eine gewisse Anzahl an Seiten, die Google dort crawlt. Nicht jede Seite erhält das gleiche Budget. Abhängig vom Crawl Budget ist auch, wie oft die wichtigsten Seiten einer Website gecrawlt werden.

Bei Fragen oder Anregungen freuen wir uns über Mails oder Kommentare. Benötigen Sie Hilfe bei der Erstellung einer robots.txt? Wir helfen Ihnen gerne weiter.