Immer wieder stelle ich in Gesprächen mit Bloggern und anderen Webseitenbetreibern fest, dass die Konzepte für das Meta-Tag robots (meta name=“robots“ …) und die robots.txt nicht verstanden wurden und z.T. schädlich für das Ranking der Website eingesetzt werden.
Index, noindex, follow, nofollow und Kombinationen
Mit dem Meta-Tag „robots“ kann man den Suchmaschinen 2 „Empfehlungen“ – die großen Suchmaschinen (google, bing, yandex) halten sich i.d.R. auch daran – aussprechen:
- index bzw. noindex
- follow bzw. nofollow
index/noindex
Hiermit „empfiehlt“ man den Suchmaschinen, die Seite in den Index mit aufzunehmen bzw. eben nicht in den Index mit aufzunehmen. Standard ist „index“, d.h. ohne explizites noindex wird die Seite in den Index aufgenommen.
Für welche Seiten ist es sinnvoll noindex einzusetzen?
Seiten, die dem Benutzer als Einstiegsseite keinen Nutzen bieten, oder Seiten, bei denen man einfach nicht möchte, dass sie in den Suchergebnisseiten erscheinen, sei es da sie u.U. anderen (wichtigeren) Seiten der Website den Platz in den Suchergebnissen wegnehmen könnten, oder man einfach nicht möchte, dass die Website über die Inhalte dieser Seite gefunden werden kann.
Beispiele:
- Suchergebnisseiten (insbesondere die Folgeseiten bei Paginierung)
- Impressum, Datenschutzerklärung, …
- Login-Seiten
follow/nofollow
Hiermit „empfiehlt“ man den Suchmaschinen, den Links auf der Seite grundsätzlich zu folgen (follow), d.h. die URLs der Links in ihre Liste der zu crawlenden URLs aufzunehmen und auch grundsätzlich die Links für die Berechung des Rankings zu berücksichtigen, oder eben nicht (nofollow).
Standard ist follow, d.h. ohne explizites nofollow werden grundsätzlich alle Links auf der Seite berücksichtigt.
Für welche Seiten ist es sinnvoll nofollow als robots-Meta-Tag einzusetzen?
Keine!
Es gibt allerdings noch eine andere Möglichkeit nofollow einzusetzen, und zwar auf Linkebene.
Hier kann man einzelne Links als „nofollow“ markieren. Die Effekte sind genau die oben beschriebenen.
Für welche Links ist es sinnvoll nofollow einzusetzen?
Zum einen gibt Google hier schon vor für welche Links Google meint, dass man nofollow sogar einsetzen muss: bezahlte Links – hierbei sind aber nicht nur Links gemeint bei denen explizit für den Link Geld fließt/geflossen ist, sondern auch jede Art von Werbe-Banner, Advertorial mit Links (zumindest zum Auftraggeber) aber auch Links für die eine andere Art der Gegenleistung (materielle und immaterielle Güter) geleistet wurde.
Weiterhin kann man Links mit nofollow auszeichnen, bei denen man nicht möchte, dass dieser Link als „SEO-Empfehlung“ für die Website gewertet wird. Z.B. ein Link auf Inhalte von denen man sich explizit distanzieren möchte.
Allerdings sollte man nofollow niemals auf interne/eigene Seiten setzen, selbst wenn man diese mittels noindex nicht in den Suchergebnisseiten haben möchte. Denn auch diese Seiten werden ja gecrawlt (sonst könnten ja die Suchmaschinen-Robots gar nicht das noindex Meta-Tag sehen) und somit können diese Seiten den erhaltenen „Link-Juice“ über ihre Links wieder an andere „index“-Seiten weitergeben.
robots.txt
Was kann man mit der Datei robots.txt machen?
Die robots.txt ist eine spezielle Text-Datei, mit der man den Suchmaschinen verbieten kann bestimmte Seiten zu crawlen.
Es ist auch möglich explizit wieder das crawlen von Seiten zu erlauben, die eigentlich durch eine andere – generellere – Direktive verboten wurde (wird nur von Ask.com, Googlebot, Yahoo!Slurp und msnbot honoriert).
Außerdem ist es noch möglich eine URL anzugeben, wo die XML-Sitemap für die Site zu finden ist (wird nur von Googlebot, Yahoo!Slurp, msnbot, Ask.com ausgewertet).
Quellen:
http://www.robotstxt.org/robotstxt.html
https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=de
https://de.wikipedia.org/wiki/Robots_Exclusion_Standard
Update 1.1.2019:
Sogar die Google-Search-Console meldet Seiten, die mittels der robots.txt-Datei blockiert wurden und trotzdem im Index gelandet sind, als ein „Problem mit Abdeckung auf der Website“:

This post is also available in: Englisch