Crawling und Indexierung beeinflussen: Die wichtigsten Basics und Tools

Beitrag aus Ausgabe 58 / Februar 2016
SEO
Markus Hövener

ist Chefredakteur des Magazins suchradar und geschäftsführender Gesellschafter der SEO-/SEA-Agentur Bloofusion Germany.

Wer via Google gefunden werden möchte, muss zunächst einmal die eigene Website indexieren. Aber nicht alles gehört auch in Index. Wie steuert man das? Und warum?

Stichworte wie „robots.txt“ oder „noindex“ sind nicht wirklich neu. In der Praxis tauchen hier allerdings immer wieder sehr grundlegende Fragen auf. Das liegt zum Teil sicherlich daran, dass oft falsche Informationen verbreitet werden (z. B. dass jede Website eine robots.txt braucht). Ein weiterer Grund ist aber wohl auch, dass sowohl das Crawling als auch die Indexierung unsichtbar „im Hintergrund“ passieren.

Wie dieser einführende Artikel zeigen wird, ist es aber für viele Unternehmen wichtig, sich mit beiden Aspekten zu beschäftigen, um optimale Ergebnisse zu erzielen.

Der Unterschied

Zunächst muss man wissen, dass es einen Unterschied zwischen Crawling und Indexierung gibt. Crawling bedeutet, dass eine bestimmte Seite von einem Google-Crawler – also einer Software – heruntergeladen wird. Das kann passieren, weil diese Seite für Google neu ist. Es kann aber auch sein, dass Google die Seite nur routinemäßig überprüft, da diese sich ja auch verändert haben könnte.

Die Indexierung erfolgt nach dem Crawling: Die heruntergeladene Seite wird analysiert und bewertet. Google kann dann schlimmstenfalls beschließen, die Seite zu verwerfen und eben nicht in den Index aufzunehmen. In der Regel wird Google eine qualitativ ansprechende Seite aber nicht ablehnen.

Diesen Index kann man sich als eine lange Liste aller Seiten einer Website vorstellen. Neben der URL werden dort viele Daten gespeichert: der Text, soziale Signale, Link-Signale und vieles mehr. Bei der Indexierung ist natürlich wichtig, dass die Aufnahme in den Index nur ein erster Schritt ist – oder mit anderen Worten: Nur weil man viele Seiten im Index hat, bedeutet das nicht, dass man auch auf viele Rankings kommt. Oftmals ist es sehr ernüchternd, wenn man die Anzahl der indexierten Seiten und die derjenigen Seiten, die mindestens einen organischen Besucher erhalten haben, in Relation setzt.

Crawler

Beim Crawling ist übrigens auch zu beachten, dass es nicht „den einen“ Google-Crawler gibt. Wenn Google eine Seite herunterlädt, wird dabei über das HTTP-Protokoll der sogenannte User-Agent übergeben – eine Kennung des jeweiligen Crawlers. Auch wenn viele den Crawler-Namen „Googlebot“ gehört haben, gibt es deutlich mehr. Allen gemein ist eigentlich nur, dass in ihnen das Wort „Google“ auftaucht.

Auf der Seite https://support.google.com/webmasters/answer/1061943?hl=de findet sich bei Google die vollständige Auflistung der meisten von Google verwendeten Kennungen. Neben der wichtigen Kennung „Googlebot“ gibt es auch andere wie „Googlebot-News“ (für die Indexierung von Google News) oder „Googlebot-Image“ (für die Bildersuche). Auch für das Abrufen von mobilen Inhalten gibt es unterschiedliche Crawler: Teilweise werden diese als „Googlebot“, teilweise als „Googlebot-Mobile“ abgerufen.

Warum kontrollieren?

Google versucht ein möglichst vollständiges Abbild des Internets zu erzeugen. Ein typischer Crawl einer Website wird also darin bestehen, viele Seiten der Website herunterzuladen. Dabei beginnt eine Suchmaschine auf der Startseite und folgt dann allen Links in die Tiefe. Wenn eine Website also 1 000 Seiten hat und diese auch innerhalb der Website alle verlinkt sind, sollte Google also nach und nach diese 1 000 Seiten herunterladen und dann hoffentlich auch indexieren.

Nun stellt sich die Frage, warum man das überhaupt kontrollieren sollte. Da man nichts für den Speicherplatz bei Google bezahlt, erscheint es auf den ersten Blick kontraproduktiv, in diesen Prozess irgendwie einzugreifen.

Es gibt aber insgesamt fünf gute Gründe, warum man sich über das Crawling und die Indexierung doch Gedanken machen sollte.

Argument 1: Begrenztes Crawl-Budget

Das Crawl-Budget, also die Anzahl der Seiten, die Google pro Tag herunterlädt, ist begrenzt. Es gibt dafür keine festen Regeln, also keine typischen Grenzen wie 1 000 Seiten/Tag. Das Budget hängt wohl von verschiedenen Einflussgrößen wie der Website-Größe und der Änderungshäufigkeit ab.

Wenn man nun den Google-Crawler einfach so gewähren lässt, kann es sein, dass das Crawl-Budget mehrheitlich für irrelevante Seiten verwendet wird, sodass weniger Crawl-Budget für die relevanten Seiten zur Verfügung steht. Das bedeutet nicht unbedingt, dass die relevanten Seiten dann nicht in den Index gelangen. Es dauert einfach nur länger, bis diese von Google heruntergeladen werden.

Was mit relevanten und irrelevanten Seiten gemeint ist, kann am besten an einem Beispiel erklärt werden. Auf der Seite von Rebuy.de gibt es auf jeder Produktdetailseite wie https://www.rebuy.de/i,1188409/buecher/populaermusik-aus-vittula-mikael-niemi einen Link auf eine Unterseite, um das Produkt zu bewerten, z. B. https://www.rebuy.de/i,1188409/buecher/populaermusik-aus-vittula-mikael-niemi/bewerten (siehe Abbildung 1). Diese Bewertungsseiten haben nun keinen echten Mehrwert, sodass sie eigentlich nicht vom Crawler heruntergeladen werden müssen und das Crawl-Budget effektiver für die wirklich wichtigen Seiten genutzt werden kann.

Das Crawl-Budget wird von Google übrigens dynamisch angepasst. Wer also z. B. im Rahmen eines Relaunches die komplette Website verändert hat, erhält in den nächsten Tagen und Wochen in der Regel ein deutlich höheres Crawl-Budget.

Argument 2: Die Gesamtbewertung aller Inhalte

Die Qualität von Inhalten ist spätestens seit dem Google-Panda-Update ein sehr wichtiger Aspekt. Google kommuniziert zum Beispiel, dass viele „dünne Inhalte“ der Gesamtbewertung einer Website schaden können. Was dabei mit „dünnen Inhalten“ gemeint ist, ist nicht immer klar definiert.

Auch hier hilft vielleicht ein Beispiel (siehe Abbildung 2): Auf Klassik.com gibt es Seiten, deren vollen Inhalt man ohne Login nicht einsehen kann. Auch Google erhält hier nur wenige Inhalte, also hauptsächlich die Überschrift, einen Teaser und dann einen gekürzten Absatz. Über eine Suchanfrage wie „,um weiterzulesen‘ site:klassik.com“ kann man bei Google herausfinden, dass es derzeit ca. 15 000 derartige Seiten im Index gibt.

Es stellt sich natürlich immer die Frage, wie hoch der Anteil der „dünnen Inhalte“ an der gesamten Website ist. Auch hier gibt es leider keine festen Regeln. Wer allerdings sicher gehen möchte, dass sich solche Inhalte nicht negativ auf die Gesamtbewertung und damit auch auf das Ranking von „gehaltvolleren“ Inhalten auswirkt, sollte darüber nachdenken, diese Inhalte für Suchmaschinen zu sperren.

Argument 3: Konkurrierende Inhalte

Manchmal gibt es Fälle, in denen eine Information doppelt existiert. So kann es z. B. auf einer Website eine Produktdetailseite einmal im HTML- und zusätzlich im PDF-Format geben. Manchmal gibt es auch Druckversionen, die auf das Layout verzichten.

Google würde mit diesen Dubletten in der Regel recht pragmatisch umgehen und meistens die HTML-Version in den Suchergebnissen anzeigen. Es kann dann aber in Einzelfällen auch dazu kommen, dass für einzelne Produkte doch die „falsche“ Version – also z. B. das PDF oder die Druckseite – ausgegeben wird. Das kann dann durchaus zu einer negativen Nutzererfahrung führen, weil die Nutzer, die auf der Druckversion einsteigen, dort keine weiterführenden Links finden und im Zweifelsfall den Besuch schnell abbrechen.

Argument 4: Gesperrte Seiten

Manche Seiten sollen auch niemals in den Index gelangen, weil sie niemand finden soll. Das kann z. B. für Intranet-Plattformen und auch die laufende Neugestaltung einer Website (unter neu.meinewebsite.de) gelten. Solche Seiten sollten grundsätzlich gesperrt werden, um z. B. keine Sicherheitslücken zu erzeugen.

Das Crawling beschränken

Um das Crawling zu beschränken, muss man die sogenannte robots.txt einer Website nutzen. Dabei handelt es sich um eine Textdatei, die unter http(s)://meinedomain/robots.txt zu finden ist. Diese Datei muss nicht immer vorhanden sein, sondern eben nur dann, wenn man Seiten für Crawler sperren möchte. Wer eine solche Datei nicht hat, wird nicht – wie manchmal immer noch behauptet – Nachteile im Ranking haben.

In der robots.txt befinden sich verschiedene Zeilen, die Anweisungen für den Crawler enthalten. Typischerweise finden sich dort die folgenden Einträge:

User-agent: * oder

User-agent: XYZ

Die folgenden Zeilen gelten entweder für alle Crawler (*) oder nur für einen bestimmten (XYZ). Wer also z. B. dort „User-Agent: Googlebot-Image“ schreibt, kann dafür sorgen, bestimmte Inhalte nur dem Bildersuche-Crawler zu sperren; für die „normale“ Google-Suche würde das dann nicht gelten.

Disallow: /irgendwas

Mit dieser Zeile sorgt man dafür, dass alle URLs, die mit „/irgendwas“ beginnen, für Suchmaschinen gesperrt sind. Eine URL wie http://meinewebsite/irgendwas.html wäre damit also gesperrt, nicht aber eine URL wie http://meinewebsite/seite/irgendwas.

Disallow: /*irgendwas

Den Sternchen-Operator kann man einsetzen, wenn man URLs sperren möchte, die den betreffenden Begriff an einer beliebigen Stelle enthalten. Mit „/*irgendwas“ kann man also sowohl URLs wie http://meinewebsite/irgendwas.html als auch http://meinewebsite/seite/irgendwas.html sperren.

Für die vollständige Beschreibung aller Möglichkeiten der robots.txt seien Interessierte an die Wikipedia-Seite (https://de.wikipedia.org/wiki/Robots_Exclusion_Standard) verwiesen.

Die Indexierung beschränken

Die robots.txt verhindert also nur das Crawling, also dass eine Seite von Google heruntergeladen wird. Selbst eine derart gesperrte Seite kann aber in den Google-Index gelangen. Dann hat Google natürlich faktisch keine Informationen, die aus der Seite selbst stammen, denn herunterladen durfte Google die Seite ja nicht. Abbildung 3 zeigt, dass sich eine Seite trotzdem im Index wiederfinden kann.

Um nun eine Indexierung zu verhindern, gibt es das sogenannte Robots-Meta-Tag, das sich im HTML-Header einer Seite befindet und das folgende Format hat:

<meta name=“robots“ content=“Anweisungen“>

Als „Anweisungen“ können dort – per Komma getrennt – die folgenden Bausteine auftauchen:

  • „index“ oder „noindex“: Wenn dort „noindex“ steht, darf die Seite nicht in den Index aufgenommen werden. Ansonsten darf die Seite im Index erscheinen.
  • „follow“ oder „nofollow“: Wer hier „nofollow“ wählt, legt fest, dass der Crawler den Links auf der Seite nicht folgen soll.

Grundsätzlich existieren noch mehr Anweisungen, die dort erscheinen können, um weitere Einstellungen vorzunehmen (siehe https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=de). Außerdem muss gesagt werden, dass dieselben Informationen dem Crawler auch über den HTTP-Header (X-Robots-Tag-HTTP-Header) mitgeteilt werden können.

Abwägung

Grundsätzlich muss man also immer entscheiden, welche der beiden Möglichkeiten – robots.txt oder Robots-Meta-Tag – man nutzen möchte. Dabei ist natürlich zu beachten, dass sich beide Möglichkeiten gegenseitig ausschließen: Wer eine Seite per robots.txt sperrt, verhindert das Crawling der Seite. Falls sich in der Seite dann ein Robots-Meta-Tag „noindex“ befindet, kann Google das nicht erkennen, weil die Seite ja nicht heruntergeladen werden kann. Wann setzt man also was ein?

Man sollte die Indexierung unterbinden, wenn man nicht möchte, dass von einer bestimmten Seite irgendeine Spur im Index zu finden ist. Wer also, z. B. bei einem Intranet-Portal oder einer Staging-Site, nicht möchte, dass jemand dafür einen Leereintrag wie in Abbildung 3 zu sehen bekommt, muss auf ein Robots-Meta-Tag „noindex“ setzen.

In den meisten anderen Fällen bietet sich allerdings eine Sperrung über die robots.txt an – vor allem dann natürlich, wenn die zu sperrenden Seiten ein eindeutiges URL-Merkmal haben, das man dann auch in die robots.txt eintragen kann.

Crawl-Rate begrenzen

Es gibt übrigens noch eine weitere Möglichkeit, auf das Crawling Einfluss zu nehmen. Das Crawling der Suchmaschinen – und das bezieht sich ja nicht nur auf Google – kann bei nicht-performanten Websites dazu führen, dass die Website für normale Nutzer nur noch schwer zu erreichen ist. Das ist heutzutage zugegebenermaßen selten, aber es kann unter Umständen vorkommen.

Dann hat man die Möglichkeit, die Crawl-Rate – also die Anzahl der heruntergeladenen Seiten pro Zeiteinheit – zu beschränken. Das kann man zum einen in der robots.txt über den Eintrag „Crawl-delay: X“ erfolgen (bedeutet: Zwischen dem Download zweier Seiten müssen mindestens X Sekunden vergangen sein). Alternativ kann man auch die Google Search Console nutzen (siehe Abbildung 4).

Welche Tools helfen?

Darüber hinaus gibt es weitere interessante Tools, die helfen können, Fehler in Bezug auf Crawling und Indexierung zu vermeiden:

Abruf wie durch Google

Wer sich nicht sicher ist, ob Google eine Seite auch herunterladen und indexieren kann, kann in der Google Search Console die Funktion „Abruf wie durch Google“ nutzen. Wenn eine Seite gesperrt ist, zeigt das Tool das direkt an.

robots.txt-Tester

Ebenfalls in der Google Search Console findet sich ein Tool, über das man URLs anhand der robots.txt überprüfen kann (siehe Abbildung 5). In diesem Tool kann man auch fiktive robots.txt-Zeilen anlegen und überprüfen, ob die Anweisungen für bestimmte URLs greifen.

Crawling-Fehler

Falls der Google-Crawler bestimmte Seiten nicht herunterladen konnte, wird dies in der Sektion „Crawling-Fehler“ in der Google Search Console angezeigt. Wenn eine Seite auf eine andere, nicht mehr existente Seite verlinkt, wird das in diesem Report angezeigt. Es ist durchaus sinnvoll, solchen Crawling-Fehlern auf den Grund zu gehen, da sie ja auch zu negativen Nutzererfahrungen führen können.

Das bedeutet aber nicht, dass sich z. B. viele 404-Fehler („Seite nicht gefunden“) negativ auf das Ranking einer Website auswirken. Wer z. B. in einem Onlineshop viele Produkte im Rahmen eines Saisonwechsels entfernt, sollte dadurch – bis auf die wegfallenden Rankings der entfernten Produktseiten – keine Nachteile erleben.

Crawling-Statistiken

Ebenfalls in der Google Search Console beheimatet sind die „Crawling-Statistiken“ (siehe Abbildung 6). Dort ist zu erkennen, wie viele Seiten und welche Datenmenge der Google-Crawler pro Tag herunterlädt. Auch die Ladezeit der Seiten kann man dort ablesen.

Indexierungsstatus

Einen weiteren interessanten Chart kann man sich in der Google Search Console über den Punkt „Indexierungsstatus“ generieren lassen (siehe Abbildung 7). Dort sieht man für die letzten drei Monate, wie sich die Anzahl der indexierten und der gesperrten Seiten verändert hat. Eine weitere Diagnose ermöglicht das Tool leider nicht, sodass man hier bei absinkenden Indexierungsraten darauf angewiesen ist, die Gründe anderweitig in Erfahrung zu bringen.

Spannend? Jetzt Artikel zu Ende lesen!

Lesen Sie den Artikel weiter in unserer suchradar Ausgabe 58 von Februar 2016 mit dem Titelthema „Crawling und Indexierung: Der beste Weg in den Google-Index“.

Kostenloses PDF-Magazin bestellen Online weiterlesen? Einfach kostenlos für den Newsletter anmelden. Kostenpflichtiges Print-Abo bestellen