Tutorial: Wie man Google Anweisungen gibt …

..und auf was Google wirklich hört. Google gibt Webmastern zahlreiche Möglichkeiten Befehle auszusprechen die von der Suchmaschine dann mehr oder weniger gehorsam befolgt werden.

Nun steht man als Webmaster vor der Entscheidung, nutze ich für meine neue URL Struktur die Meta Daten mit Canonical, oder leite ich die Seiten per 301 Weiter.

Natürlich führen wie immer viele Wege nach Rom, jedoch gibt es für jede Situation meist ein bis zwei Lösungen die aus Suchmaschinen(-optimierer) Sicht besser funktionieren und bisher erreichte Ergebnisse verbessert.

Die verschiedenen Möglichkeiten und deren Bedeutung für Google

Meta-Robots & X-Robots

Meta-Robots werden in den Metadaten im Head Bereich einer Seite ausgegeben. Sie gelten immer nur für die Seite, auf der sie ausgegeben werden. Geladen werden sie mit dem Content der jeweiligen Seite.

X-Robots funktionieren wie die Meta-Robots jedoch werden diese im HTTP-Header geladen und somit vor dem Seiteninhalt übermittelt. Somit wissen Suchmaschinen schon vor dem Aufruf des folgenden Inhaltes, wie sie damit umzugehen haben. Genutzt werden die X-Robots vor allem für Dokumente, die keinen speziellen Meta-Bereich oder korrekten Syntax für Suchmaschinen besitzen, beispielsweise PDFs.

Anweisungen für Suchmaschinen, die in den Meta-Robots / X-Robots stehen sind für den Crawler Anweisungen. Er wird sich an diese halten.

Die meistgenutzten (und für uns am relevantesten) Meta- / X-Robots Befehle sind:

NOINDEX : Die Suchmaschine soll die Seite nicht in den Index aufnehmen
NOFOLLOW : Die Suchmaschine soll weiterführende Links auf dieser Seite nicht verfolgen
NOARCHIVE : Die Suchmaschine soll den Inhalt nicht in den Cache aufnehmen
NOSNIPPET : Die Suchmaschine soll keine Description in den Ergebnissen ausgeben

robots.txt

Die robots.txt ist ausschließlich im Stammverzeichnis des Servers zu finden und wird vom Crawler vor Besuch der Seite über die URL www.domain.de/robots.txt aufgerufen.

Es lassen sich leicht einzelne Seiten, ganze Pfade und auch komplette Strukturen ausschließen, jedoch werden Anweisungen in der Robots.txt von Google nur als Empfehlung wahrgenommen. Möchte man eine Datei, die bereits im Index steht über die Robots.txt entfernen, bietet Google einem im Google Webmaster Tool die Google Removal Console an.

Mit der Robots.txt lassen sich ausschließlich die Erlaubnis, oder das Verbot einen Pfad zu indizieren ausgesprochen werden. Anweisungen bezüglich der Verfolgung von Links oder Aufnahme in den Cache sind nicht möglich.

Die Befehle sind:
User-agent: Name-des-Crawlers
Disallow: /pfad/datei.html
Allow: /pfad/datei.html

Canonical-Tag

Wenn Inhalte auf der eigenen Seite (beabsichtigt, sowie unbeabsichtigt) mehrfach vorkommen, lohnt es sich den Canonical Tag in Betracht zu ziehen. Mit diesem Tag teilt man den Suchmaschinen mit, welche Seite den originalen Inhalt besitzt und welche Seiten das Duplikat darstellt.

Der Syntax sieht wie folgt aus:

<link rel="canonical" href="http://www.tld.de/url-mit-original-inhalt.html">

Dieser Befehl wird von Google nur als Empfehlung wahrgenommen. Wenn Google eine Unstimmigkeit in der Nutzung feststellt, kann der Befehl missachtet werden. Google entscheidet in diesem Fall selbst, welche Seite in den Index kommt und welche nicht.

Der Vorteil an diesem Befehl ist, dass durch die Kanonisierung zwar die Inhalte der duplizierten Seite nicht mehr im Index auftauchen, jedoch alle Links weiter verfolgt werden und somit der Linkjuice weitergegeben wird.

Parameterbehandlung, Google Webmaster Tool

Wie bereits im Punkt Robots.txt erklärt, gibt es im Google Webmaster Tool die Möglichkeit Seiten aus dem Index auszuschließen.

Zudem bietet das Google Webmaster Tool unter dem Punkt „Parameterbehandlung“ die Option, die den Umgang mit Parametern nach Webmaster-Wunsch zu definieren. Soll eine Seite mit einem bestimmten Parameter in den Index aufgenommen werden oder nicht? Hat der Parameter für den Suchenden einen Mehrwert? Google nimmt Vorschläge gerne entgegen, jedoch behalten sie es sich vor auch diese Vorschläge zu ignorieren und selbstständig zu entscheiden.

Die Parameterbehandlung ist demnach nur ein Vorschlag.

301 Weiterleitung

Sind Inhalte durch eine Umstrukturierung an eine neue URL gezogen, kann man Google mit einer 301 Weiterleitung  mitteilen, wo sich die neuen Inhalte befinden. Die Anweisung wird durch die  .htaccess-Datei auf dem Server gegeben. 301 bedeutet in der Serversprache so viel wie „Der Inhalt ist permanent an folgende Stelle verzogen“. Da der Befehl direkt vom Server kommt,  erhält der Browser noch vor der eigentlichen Übermittlung der Inhalte die 301 Anweisung. Er bricht den Ladevorgang an dieser Stelle ab und ruft die in der Weiterleitung hinterlegte neue URL auf.

Dies ist für Google eine eindeutige Anweisung und wird vom Googlebot akzeptiert und umgesetzt. Vorsicht gilt, da eine falsche Anweisung in einem Serverfehler resultieren und ganze CMS-/ Shopsysteme ohne Vorwarnung außer Betrieb setzen kann.

Ein Beispiel für eine 301 Weiterleitung in der .htaccess wäre folgende:

permanent redirect /alte-url.html http://www.tld.de/neue-url.html

Wichtig bei der Anweisung ist als Ausgangs-URL ein relative Pfad und als Ziel-URL ein absoluter Pfad.

Es gibt selbstverständlich noch weitere Möglichkeiten eine 301 Weiterleitung einzurichten, dies wurde in einem anderen Beitrag bereits behandelt. Link zu 301 Weiterleitung per htaccess – Aber wie?

HTTP-Statuscode 4xx

Ähnlich wie die 301 Weiterleitung ist der HTTP-Statuscode ein Server seitiges Ereignis und wird vor dem Inhalt der Seite an den Browser übergeben. Die 4xx-er Statuscodes haben alle verschiedene bedeutungen, jedoch haben sie für GOogle meist nur eine: Der Inhalt ist an dieser Stelle nicht mehr verfügbar. 

Bedeutung der 4xx Statuscodes:
408 Request Timeout
407 Proxy Authentication Required
406 Not Acceptable
405 Method Not Allowed
404 Not Found
– Der wohl bekannteste Statuscode
403 Forbidden
402 Payment Required
401 Unauthorized
417 Expectation Failed
416 Requested Range Not Satisfiable
415 Unsupported Media Type
414 Request-URI Too Long
413 Request Entity Too Large
412 Precondition Failed
411 Length Required
410 Gone
409 Conflict
400 Bad Request

Diese Statuscodes sind für den Googlebot Anweisungen, die er auch akzeptiert, jedoch nicht direkt nach dem ersten Mal. Sollte der Googlebot eine Seite im Webauftritt, die er bereits kennt, erneut Crawlen und diese nicht mehr erreichbar sein, wird er sie nicht direkt aus den Suchergebnissen entfernen. Er wird es noch einige Male weiter Versuchen und einen Fehler in den Google Webmaster Tools ausgeben. Sollte der Webmaster nicht reagieren und der 4xx-Statuscode bestehen bleiben, wird der Googlebot nach einem angemessenem Zeitraum von ca. 2-3 Wochen  die Seite aus dem Index entfernen.

Der richtige Befehl zur passenden Situation

Nicht jede dieser Anweisungen an Google ist in jeder Situation passend. Man sollte sich als Webmaster vorher gut überlegen, welches Ziel man verfolgt und dann einen passenden Weg für die Answeisung an Google ausarbeiten. Manchmal sind Kombinationen aus mehreren Möglichkeiten die beste Lösung, manchmal nur ein spezieller Weg.

Achten Sie auf jeden Fall darauf, wie Google auf die Anweisungen reagiert. Eine falsche Einstellung kann fatale Folgen für Ihre Suchmaschinenoptimierung haben. Daher lohnt es täglich den Index auf Änderungen zu prüfen und stets auf unerwartete Eventualitäten gefasst zu sein.

Viel Erfolg!