Ergänzende Materialien zu den VHS Seminaren

Regeln für die Datei robots.txt

Mit der Datei robots.txt gibt der Webmaster den Robots der Suchmaschinen Anweisungen für die Indexierung der Seiteninhalte bzw. wie mit den Seiteninhalten zu verfahren ist.

Die drei Suchmaschinbetreiber Google, Yahoo und Microsoft haben sich 2008 auf Regeln für die Datei robots.txt geeinigt und befolgen die Anweisungen. Das bedeutet, die Robots suchen nach dieser Datei, lesen die Anweisungen aus und beginnen erst dann mit der Indexierung.

Die Einigung der Suchmaschinenbetreiber auf bestimmte Regeln soll mehr Übersichtlichkeit bringen und die seit 1994 gültigen Protokoll-Inhalte des Robots Exclusion Protocol (REP) festigen.




Anweisung Wirkung Einsatzmöglichkeit mit Beispiel
Disallow Bewahrt die Site oder ein bestimmtes Verzeichnis davor gecrawlt zu werden. Die Datei robots.txt wird jedoch gelesen, um die entsprechenden Anweisungen zu finden.
Gesamte Präsenz soll nicht gecrawlt werden.
Disallow:/
Bestimmte Verzeichnisse sollen nicht gecrawlt werden.
Disallow:/verzeichnis/
Seiten, die ein Fragezeichen in der URL enthalten, sollen nicht gecrawlt werden.
Disallow: /*?
Allow Zeigt an, welche Seiten indexiert werden sollen.
Die Anweisung kann in Kombination mit Disallow verwenden werden.
Teile einer Site wurden mit Disallow gesperrt, außer eines bestimmten Teils, der darin eingeschlossen ist.
Disallow: /preisliste/
Allow: /preisliste/august.html
$ Wildcard Der Crawler soll, ausgehend vom Ende einer URL, alles suchen. Anweisung bezieht sich auf eine große Anzahl von Verzeichnissen, ohne auf bestimmte Seiten einzugehen. Dateien eines bestimmten Musters bzw. Dateityps sollen nicht gecrawlt werden.
Disallow: /*.pdf$
Alle Dateien mit der Endung .pdf sollen nicht gecrawlt werden.
* Asterisk-Wildcard Sagt dem Crawler, dass er nach einer Sequenz (Teilbegriff bzw. Zeichenketten) suchen soll. Alle Verzeichnisse die mit preis beginnen (z.B. /preisliste/ oder /preise_august/ )
sollen nicht gecrawlt werden.
Disallow: /preis*/
Sitemaps Location Zeigt dem Crawler, wo er die Sitemap findet Sitemap: http://www.website.de/sitemap.xml