Screaming Frog SEO Spider: Mit „Search“ und „Extraction“ auf Daten zugreifen

Beitrag aus Ausgabe 59 / April 2016
SEO
Markus Hövener

ist Chefredakteur des Magazins suchradar und geschäftsführender Gesellschafter der SEO-/SEA-Agentur Bloofusion Germany.

Der Screaming Frog SEO Spider kann nicht nur eine Website crawlen, sondern auch innerhalb der heruntergeladenen Daten nach bestimmten Aspekten suchen. Ein Blick auf die wichtigen Funktionen „Search“ und „Extraction“.

Mit dem Screaming Frog SEO Spider kann man sich ohne Probleme schnell die <h1>-Überschrift oder den Seitentitel anzeigen lassen. Wer aber die Hauptüberschrift nicht als <h1>, sondern z. B. als <div class=“hauptueberschrift“> formatiert hat, kommt mit den Standardbordmitteln nicht weiter. Aber genau für diese Fälle gibt es zwei interessante Funktionen: „Search“ beantwortet die Frage, ob ein bestimmter Text in einer HTML-Seite vorkommt oder nicht, während „Extraction“ in der Lage ist, bestimmte Informationen – wie die eben erwähnte als <div> formatierte Hauptüberschrift – zu ermitteln und in der Auswertung darzustellen.

Search

Mit der Search-Funktion ist es möglich zu prüfen, ob ein bestimmter Text im HTML-Code einer Seite enthalten ist. Insgesamt können zehn unterschiedliche Suchen angelegt werden, bei denen das Kriterium jeweils positiv oder negativ gewählt werden kann: Kommt der Text auf einer Seite vor („Filter Contains“) oder fehlt er („Filter Does not Contain“)?

Die Funktion kann recht unterschiedlich genutzt werden, z. B. für die folgenden Überprüfungen:

  • Fehlt auf einzelnen Seiten ein bestimmter Tracking-Code? So kann man z. B. nach „UA-37732476-1“ suchen – ein Teil aus dem Google-Analytics-Code für bloofusion.de. Wenn dieser Text auf einer Seite fehlt, wäre das ein klares Indiz dafür, dass es auf der Seite keinen ordentlichen Tracking-Code gibt.
  • Man kann aber auch positiv nach Seiten suchen, in denen ein bestimmter Text steht. Ein Beispiel ist in Abbildung 1 zu sehen: Gesucht wird auf dem Onlineshop www.ad-sportbrillen.com nach dem Text „Dieses Produkt ist nicht mehr“. Wie in der Auswertung zu sehen, gibt es relativ viele Seiten, in denen dieser Text auch recht oft vorkommt – ein schlechtes Zeichen für die Conversion-Kraft der jeweiligen Seite, da die meisten Produkte gar nicht verfügbar sind.

Extraction

Die Search-Funktion ist insgesamt recht eingeschränkt, weil sie nur prüfen kann, ob und wie oft ein bestimmter Text vorkommt oder fehlt. Wenn man aber eine bestimmte Information aus einer Seite herausholen möchte, muss man dafür die Extraction-Funktion nutzen.

Ein Beispiel aus der Praxis: Ein Onlineshop hat für die meisten Rubrikenseiten Texte erstellt und eingepflegt. Jetzt soll geprüft werden, welche Rubrikenseiten noch nicht über einen Text verfügen. Bei sehr kleinen Shops könnte man das noch manuell prüfen, aber bei hunderten von Rubriken ist das natürlich nicht mehr möglich.

Am Beispiel des Shops www.gewuerz-express.de soll nun gezeigt werden, wie man das prüfen kann. Ein Blick in den Quellcode einer Rubrikenseite wie https://www.gewuerz-express.de/pfeffer/ zeigt, dass sich die Rubrikenbeschreibung – wenn sie denn vorhanden ist – wie folgt im HTML-Code befindet:

<td id="main_column" valign="top">

<p>Hier steht dann die Rubrikenbeschreibung</p>

Dafür kann man sich nun einen sogenannten regulären Ausdruck erzeugen, der nach „<td id="main_column" valign="top">“ und einem danach folgenden <p>…</p>-Tag sucht. Der reguläre Ausdruck sieht dann so aus:

<td id="main_column" valign="top">[^<]*<p>(.*?)</p>

In die einzelnen Bestandteile aufgebrochen steht dort:

  • <td id="main_column" valign="top">: Nach diesem Text wird gesucht.
  • [^<]*: Danach können einige Zeichen folgen, aber kein “<”.
  • <p>(.*?)</p>: So wird nach einem “<p>” und einem “</p>” gesucht. Alles, was dazwischen liegt, ist mit einer runden Klammer umschlossen, was bedeutet, dass dort genau die Information liegt, die man haben möchte.

Wie gesagt: Für jemanden, der noch nie etwas mit regulären Ausdrücken zu tun hatte, mag das sehr kryptisch aussehen. Ein wenig trösten kann man sich damit, dass es auch andere Methoden gibt, die Informationen zu spezifizieren. So kann alternativ auch auf CSSPath und XPath zurückgegriffen werden – beides aber Varianten, die für Nicht-Technikaffine auch nicht deutlich besser zu verstehen sind.

Gerade XPath bietet sehr vielfältige Möglichkeiten, z. B.

  • //h5[1] = liefert das erste <h5>-Element zurück
  • //div[contains(@id,'test')] = liefert das <div>-Element zurück, bei dem im id-Attribut das Wort „test“ vorkommt
  • ...

So kann man sich nahezu jede Information herausholen, die auch irgendwie über HTML-Tags und -Attribute gefunden werden kann.

In Abbildung 2 ist zu sehen, wie man den regulären Ausdruck im Screaming Frog SEO Spider hinterlegt. Nach dem Crawlen der Website erhält man dann eine Auswertung wie in Abbildung 3. Dort sind die Rubrikentexte zu sehen bzw. die Seiten, die nicht über Rubrikentexte verfügen.

Einsatzzweck: Relaunch

Eine Möglichkeit, das Tool zu nutzen, liegt im Relaunch einer Website. Angenommen, alle Produktseiten erhalten neue URLs. Dann wäre es gut, die alten URLs per 301-Weiterleitung auf die neuen URLs umzuleiten. Dies per Hand zu machen, wäre allerdings mehr als mühselig.

Als Beispiel kann der Shop Deichmann.com herangezogen werden. Auf Produktdetailseiten ist jeweils eine Artikelnummer zu finden. Im Quellcode sieht das so aus:

<div class="upc">Artikelnummer: 123456</div>

Um die angegebene Zahl zu finden, könnte man nun einen regulären Ausdruck erstellen:

<div class="upc">Artikelnummer: ([0-9]+)</div>

Spannend? Jetzt Artikel zu Ende lesen!

Lesen Sie den Artikel weiter in unserer suchradar Ausgabe 59 von April 2016 mit dem Titelthema „SEO-Analysen selber durchführen“.

Kostenloses PDF-Magazin bestellen Online weiterlesen? Einfach kostenlos für den Newsletter anmelden. Kostenpflichtiges Print-Abo bestellen