Robots kontrollieren

Mit der sogenannten “robots.txt” Datei können Suchmaschinenroboter von bestimmten Ordnern ausgeschlossen werden, das ist nützlich wenn man z.B. Benutzerprofile nicht spidern lassen möchte und Scripte und Bilder nicht indexieren lassen möchte weil es unsinnig ist, oder um sich einfach nur zu schützen…

Erste Schritte

  1. Eine Datei mit dem Namen “robots.txt” im Stammverzeichnis erstellen.
  2. Die Datei öffnen
  3. Die nächsten Schritte befolgen ;-)

Schauen wir uns doch einmal eine typische “robots.txt” an:

Beispiel 1

# Alle Robots ausschließen
User-agent: *
Disallow: /images/
Disallow: /include/js/
Disallow: /include/css/

Mit User-agent: * wird festgelegt das die folgenden Ordner von allen Robots ausgeschlossen werden sollen.

Der Befehl Disallow: sagt den Robots welche Ordner für sie tabu sind.

Wenn ein # vor einem Text steht, ist der Text ein Kommentar und wird von den Robots schlichtweg ignoriert.

Beispiel 2

# Google hätte hier keine Rechte
User-agent: google
Disallow: /

# Alle anderen Robots haben eingeschränkte Rechte
User-agent: *
Disallow: /images/
Disallow: /include/js/
Disallow: /include/css/

Mit Disallow: / sperrt man die ganze Seite. Gibt man aber Disallow ohne Befehl an ist die ganze Seite freigegeben!

Hier wird das ganze noch einmal in einer Tabelle dargestellt:

Adresse Google Andere Robots
http://www.my-online-desktop.de/robots.txt Zugriff gewährt Zugriff gewährt
http://www.my-online-desktop.de/ Kein Zugriff Zugriff gewährt
http://www.my-online-desktop.de/images/ Kein Zugriff Kein Zugriff
http://www.my-online-desktop.de/include/js/ Kein Zugriff Kein Zugriff
http://www.my-online-desktop.de/include/css/ Kein Zugriff Kein Zugriff
http://www.my-online-desktop.de/text/ Kein Zugriff Zugriff gewährt

Das ist eine ganz klare Aussage mit der sich das oben von selbst klären sollte. Einfach mit User-agent die Robots einbeziehen und mit Disallow ihnen sagen, was sie dürfen und was nicht. Das ist ganz einfach, aber Vorsicht! Neben Disallow gibt es auch den Befehl Allow, diesen beherrschen allerdings nicht alle Robots und deswegen sollten sie nur den Befehl Disallow nehmen. Achten Sie auch darauf das die “robots.txt” immer klein geschrieben wird, sonst gibt es nur unnötige Probleme.

Das war dann auch schon alles, mehr gibt es über die “robots.txt” wirklich nicht zu wissen!

Tags: ,

Über Christian Rosenbauer

Christian Rosenbauer ist der Ersteller von Web-Tipps und Hobbydesigner. Er ist Gimp Spezialist und probiert immer wieder neue Designelemente und Stile aus. Derzeit entwickelt er u.a. das OpenWolf CMS und das XLTC (eXtensionable Life Time Content) Schema.

Hinterlasse eine Antwort

Spam vermeiden


Was ist 5 + 6 ?
Please leave these two fields as-is: