Google Search Console: Wie man Crawling und Indexierung steuern kann

Beitrag aus Ausgabe 63 / Dezember 2016
SEO
Markus Hövener

ist Chefredakteur des Magazins suchradar und geschäftsführender Gesellschafter der SEO-/SEA-Agentur Bloofusion Germany.

Mit der Google Search Console kann man Einfluss auf den Googlebot und den Google-Index nehmen. Es gibt viele unterschiedliche Funktionen, die mal mehr, mal weniger hilfreich sind.

Der Google-Index ist sicherlich in Bezug auf SEO in Deutschland das wichtigste Ziel. Wer dort nicht optimal vertreten ist, kann von der reichweitenstärksten Suchmaschine nicht profitieren.

Gerade die Google Search Console bietet dabei viele Funktionen, um Einblicke in den Crawler und den Index zu bekommen – und darauf natürlich auch Einfluss auszuüben. Dieser Artikel bietet einen Überblick über die unterschiedlichen Funktionen und zeigt auch auf, wo die Grenzen der jeweiligen Tools liegen.

Crawling und Indexierung: Webinar-Mitschnitt

Zum Thema „Crawling und Indexierung intelligent steuern“ gab es im September 2016 ein umfassendes Webinar mit vielen Grundlagen-Informationen. Ein Mitschnitt des Webinars kann per YouTube abgerufen werden:

https://www.youtube.com/watch?v=LeWn40FmRrs

Crawling-Geschwindigkeit

Eine Möglichkeit, das Crawling zu beeinflussen, findet sich in den „Website-Einstellungen“. Dort kann man die maximale Crawling-Frequenz beschränken (siehe Abbildung 1). Das wird man allerdings nur dann tun, wenn die Website durch allzu viele Seitenabrufe der unterschiedlichen Google-Crawler beeinträchtigt wird.

In der Regel wird man diese Einstellungsmöglichkeit also nicht nutzen und sich darauf verlassen, dass Google seinen Crawler nicht zu oft vorbeischickt. Wenn Google die Website beeinträchtigt, sollte das eher Motivation sein, über die Performance der eigenen Website nachzudenken und z. B. einen Cache zu implementieren.

Indexierungsstatus

Unter dem Punkt „Indexierungsstatus“ findet man eine Übersicht der indexierten Seiten. In dem Chart (siehe Abbildung 2) kann man im Zeitverlauf (ein Jahr) sehen, wie sich der Index verändert hat. Die Aussagekraft ist leider recht gering, da man zwar sehen kann, wie viele Seiten indexiert und für Suchmaschinen gesperrt sind. Welche Seiten konkret sich aber im Index befinden, kann man über die Google Search Console leider nicht einsehen.

Man sollte also schon auf sprunghafte Veränderungen achten. Wenn es auf einmal einen Sprung nach oben gibt, könnte das darauf hindeuten, dass Google etwas indexiert, das vorher nicht verfügbar war. Dabei kann es sich natürlich um relevante Inhalte handeln – aber genauso gut auch um tausende irrelevante Seiten (z. B. Login-Seiten, Druckversionen ...). Es kann aber auch einen Sprung nach unten geben, weil man z. B. versehentlich Inhalte für Suchmaschinen gesperrt hat.

In beiden Fällen hilft aber die Google Search Console leider nicht bei der weiteren Diagnose, da man nicht sehen kann, welche Seiten ursächlich für die Änderungen sind. Man ist hier also auf weitere Tools angewiesen. Eine Möglichkeit, um ein Anwachsen der indexierten Seiten zu erfassen, ist die Nutzung vom Screaming Frog Log Analyzer. Dort kann man die Log-Dateien des Web-Servers analysieren lassen, um so zu sehen, welche Seiten Google heruntergeladen hat. Wenn man diese dann über das Tool z. B. mit der XML-Sitemap abgleicht, kann man prüfen, welche Seiten, die nicht in der Sitemap sind, geladen werden. Das ist allerdings ein recht aufwendiger Vorgang, der aber auch nur in Ausnahmefällen nötig ist.

Seiten ausblenden

Manchmal gibt es auch Fälle, in denen Seiten, die sich im Index befinden, schnell wieder aus diesem entfernt werden müssen. Das ist z. B. dann notwendig, wenn einige Seiten rechtliche Probleme verursachen und zur Vermeidung von Strafen nicht mehr in den Suchergebnissen erscheinen sollten.

Auch hierzu bietet die Google Search Console Hilfe an. Über den Punkt „URLs entfernen“ (siehe Abbildung 3) kann man konkrete Seiten aus den Suchergebnissen ausblenden und/oder aus dem Cache entfernen. In der Regel wird man natürlich beides gleichzeitig machen, damit es auch wirklich keine Spur mehr von der Seite gibt.

Wichtig ist dabei die Wortwahl „ausblenden“: Die konkrete Seite bleibt im Index, wird aber in den Suchergebnissen nicht mehr ausgespielt. Man muss also nach Nutzung der Option dafür sorgen, dass die entsprechende(n) Seite(n) auch wirklich aus dem Index entfernt werden. Dafür muss man am besten das Robots-Meta-Tag „noindex“ in die jeweilige(n) Seite(n) einbauen.

Das Ausblenden der Seiten funktioniert nur temporär (90 Tage) – überbrückt aber die Zeit, bis die Seite(n) dann wirklich aus dem Index entfernt wurde(n).

Crawling-Fehler

In der Rubrik „Crawling-Fehler“ werden recht unterschiedliche Fehler aufgeführt, die Google beim Crawling findet. Denn: Nicht jede Seite, die Google herunterladen möchte, liefert auch immer den gewünschten HTTP-Code 200 („Seite gefunden“). Manchmal findet Google z. B. über fehlerhafte interne oder externe Verlinkungen auch Seiten, die es eben nicht mehr gibt. Typisch ist da vor allem der Fehler 404 („Nicht gefunden“).

Die Google Search Console zeigt aber nicht nur 404-Fehler an, sondern z. B. auch den sogenannten „Soft 404“. Dieser Fehler tritt dann auf, wenn die Website falsch konfiguriert ist und z. B. bei einer nicht mehr existenten URL mit einem HTTP-Code 200 („Gefunden“) statt 404 („Nicht gefunden“) antwortet. Dann sollte man seinen Web-Server so ändern, dass auch der richtige Code ausgeliefert wird.

Grundsätzlich muss man aber sagen, dass diese Fehler von Google angezeigt werden, um daraus zu lernen und die Website zu verbessern. Die oft empfundene Angst, dass eine Vielzahl von 404-Fehlern einer Website schaden kann, ist nicht unbedingt begründet.

Trotzdem sollte man sich an die Fehlerbehebung setzen und prüfen, wie man die einzelnen Probleme lösen kann. Ein Manko hat die Google Search Console aber leider: Man kann zwar bestimmte URLs aus den Fehlerlisten entfernen – diese tauchen aber später immer wieder auf. Es reicht also nicht aus, die Fehler einfach nur „wegzuklicken“. Man muss sie auch wirklich beheben, z. B. durch das Sperren bestimmter Seiten in der robots.txt.

XML-Sitemaps

Das Hinterlegen von XML-Sitemaps ist vor allem bei großen Websites sinnvoll. Wer viele Seiten/Inhalte auf seiner Website hat, kann über die XML-Sitemaps Google mitteilen, welche Seiten wichtig sind. Zudem können an die Seiten noch Zusatzinformationen über die Wichtigkeit und die Änderungshäufigkeit angehängt werden.

Wie gesagt: Wirklich sinnvoll ist das nur bei großen Websites, denn ansonsten schafft es der Crawler auch ohne XML-Sitemap, alle innerhalb der Website verlinkten Informationen zu crawlen. Man darf hier also keine Wunder erwarten.

XML-Sitemaps bieten aber im Zusammenspiel mit der Google Search Console ein interessantes Potenzial. In der Console wird nämlich pro Sitemap angezeigt, wie viele Seiten diese enthält und wie viele dieser URLs sich dann auch wirklich im Index befinden. Wer also seine XML-Sitemaps gut strukturiert und z. B. alle Top-Seller-Produkte in einer eigenen Sitemap aufführt, kann so zielsicher überprüfen, ob diese auch gut indexiert werden.

Ähnlich wie beim Indexierungsstatus enden die Möglichkeiten der Google Search Console dann aber auch wieder: Man kann nicht einsehen, welche Seiten indexiert und welche nicht indexiert werden.

URL-Parameter

URL-Parameter sind Teil der URL. Diese werden per Fragezeichen von der URL und untereinander per Kaufmanns-Und („&“) abgetrennt. Die URL http://www.meinewebsite.de/sale/?source=adwords&list=all enthält also zwei Parameter („source“ und „list“). Über solche URL-Parameter wird dann gesteuert, was auf der Seite dargestellt werden soll.

Solche Parameter sind natürlich nicht schädlich, aber oft die Quelle von Duplicate-Content-Problemen. Häufig werden Tracking-Parameter wie „utm_source“ angehängt, was dann zu unterschiedlichen URLs mit gleichem Inhalt führt.

In der Google Search Console kann man Google daher mehr Informationen über die einzelnen Parameter mitteilen. Vor allem ist es wichtig, Tracking-Parameter – also solche, die den Seiteninhalt nicht verändern – entsprechend zu markieren (siehe Abbildung 4). Dazu wählt man für den jeweiligen Parameter die Option „Nein: Hat keinen Einfluss auf den Seiteninhalt“ aus. Fortan wird sich Google bemühen, diesen Parameter aus URLs zu entfernen, sodass der Crawler solche Dubletten idealerweise gar nicht erst herunterlädt.

Für den Fall, dass ein Parameter den Seiteninhalt doch ändert, kann man übrigens noch weitergehende Informationen festlegen. Hier sollte man einfach die entsprechenden Fragen beantworten, um Google möglichst viele Informationen über die Funktionsweise des jeweiligen Parameters mitzuliefern. So kann man z. B. auswählen, dass ein Parameter wie „sort“ dazu dient, den Seiteninhalt anders zu sortieren.

Abrufen wie durch Google

Die Funktion „Abruf wie durch Google“ kann bei der Diagnose einer bestimmten Seite helfen. Wenn man eine bestimmte URL eingibt und dann auf „Abrufen“ klickt, kann man prüfen, ob die Seite z. B. per robots.txt für Suchmaschinen gesperrt ist oder ob es andere Probleme gibt. So kann es gelegentlich bei internationalen Websites dazu kommen, dass Besucher anhand der IP-Adresse auf die jeweilige Länderversion umgeleitet werden. Das kann sinnvoll sein – aber auch Google greift ja auf die Seite zu und wird dann evtl. auch umgeleitet. Das kann man über die „Abrufen“-Funktion prüfen, denn darüber sieht man, was der „echte“ Googlebot auch sehen würde.

Hilfreich ist aber auch die Funktion „Abrufen und Rendern“. Google analysiert ja nicht mehr einfach nur eine HTML-Seite, sondern lädt alle Bestandteile einer Seite (CSS, JavaScript, Bilder ...) herunter, um ein vollständiges Bild einer Seite zu erhalten. Wenn man nun diese Funktion auswählt, sieht man, wie Google die Seite darstellt. Falls man also z. B. Produktbilder für Suchmaschinen gesperrt hat, würde man beim Rendern einer Produktdetailseite an den jeweiligen Stellen weiße Flecken sehen. Im Browser hingegen würde die Seite korrekt dargestellt, da der Browser sich nicht an die robots.txt hält.

Man sollte also die wichtigsten Seitentypen durchprüfen, um solche Fehlerquellen zu finden. Google listet dafür auch alle Ressourcen auf, die für die Suchmaschine gesperrt sind. Man darf durchaus einzelne Elemente für Suchmaschinen sperren (z. B. Tracking-Skripte), aber alle wichtigen Elemente (Bilder, CSS-Dateien, Fonts ...) sollten für Google zugänglich sein.

Die „Abrufen“-Funktion hat übrigens noch einen Vorteil: Wenn eine Seite korrekt abgerufen werden konnte, kann man sie direkt in den Index befördern (Klick auf „An den Index senden“). Hier gibt es allerdings Begrenzungen, sodass man diese Funktion nur wohldosiert nutzen sollte.

robots.txt-Tester

Die robots.txt wurde schon mehrfach erwähnt. Sie dient dazu, das Crawling zu beschränken, also zu verhindern, dass bestimmte Seiten vom Crawler geladen werden. Wer bestimmte Inhalte zukünftig sperren und einfach nur prüfen möchte, ob bestimmte URLs vom Crawler geladen werden können oder nicht, kann dazu den robots.txt-Tester verwenden.

Spannend? Jetzt Artikel zu Ende lesen!

Lesen Sie den Artikel weiter in unserer suchradar Ausgabe 63 von Dezember 2016 mit dem Titelthema „Google Search Console: Der wichtigste Werkzeugkasten für Webseiten“.

Kostenloses PDF-Magazin bestellen Online weiterlesen? Einfach kostenlos für den Newsletter anmelden. Kostenpflichtiges Print-Abo bestellen