Robots kontrollieren
Mit der sogenannten “robots.txt” Datei können Suchmaschinenroboter von bestimmten Ordnern ausgeschlossen werden, das ist nützlich wenn man z.B. Benutzerprofile nicht spidern lassen möchte und Scripte und Bilder nicht indexieren lassen möchte weil es unsinnig ist, oder um sich einfach nur zu schützen…
Erste Schritte
- Eine Datei mit dem Namen “robots.txt” im Stammverzeichnis erstellen.
- Die Datei öffnen
- Die nächsten Schritte befolgen
Schauen wir uns doch einmal eine typische “robots.txt” an:
Beispiel 1
# Alle Robots ausschließen
User-agent: *
Disallow: /images/
Disallow: /include/js/
Disallow: /include/css/
Mit User-agent: * wird festgelegt das die folgenden Ordner von allen Robots ausgeschlossen werden sollen.
Der Befehl Disallow: sagt den Robots welche Ordner für sie tabu sind.
Wenn ein # vor einem Text steht, ist der Text ein Kommentar und wird von den Robots schlichtweg ignoriert.
Beispiel 2
# Google hätte hier keine Rechte
User-agent: google
Disallow: /# Alle anderen Robots haben eingeschränkte Rechte
User-agent: *
Disallow: /images/
Disallow: /include/js/
Disallow: /include/css/
Mit Disallow: / sperrt man die ganze Seite. Gibt man aber Disallow ohne Befehl an ist die ganze Seite freigegeben!
Hier wird das ganze noch einmal in einer Tabelle dargestellt:
| Adresse | Andere Robots | |
|---|---|---|
| http://www.my-online-desktop.de/robots.txt | Zugriff gewährt | Zugriff gewährt |
| http://www.my-online-desktop.de/ | Kein Zugriff | Zugriff gewährt |
| http://www.my-online-desktop.de/images/ | Kein Zugriff | Kein Zugriff |
| http://www.my-online-desktop.de/include/js/ | Kein Zugriff | Kein Zugriff |
| http://www.my-online-desktop.de/include/css/ | Kein Zugriff | Kein Zugriff |
| http://www.my-online-desktop.de/text/ | Kein Zugriff | Zugriff gewährt |
Das ist eine ganz klare Aussage mit der sich das oben von selbst klären sollte. Einfach mit User-agent die Robots einbeziehen und mit Disallow ihnen sagen, was sie dürfen und was nicht. Das ist ganz einfach, aber Vorsicht! Neben Disallow gibt es auch den Befehl Allow, diesen beherrschen allerdings nicht alle Robots und deswegen sollten sie nur den Befehl Disallow nehmen. Achten Sie auch darauf das die “robots.txt” immer klein geschrieben wird, sonst gibt es nur unnötige Probleme.
Das war dann auch schon alles, mehr gibt es über die “robots.txt” wirklich nicht zu wissen!