suchradar     Magazin     Archiv     Foren-Ticker     Blog-Ticker     Agenturen & Dienstleister     Links     Comic     Kalender     Newsletter    Blog 

SEO in Action:
Xenu's Link Sleuth

Das kostenlose Tool Xenu's Link Sleuth kann man sehr gut nutzen, um typische On-Page-Probleme auf Websites zu identifizieren. Man muss nur wissen, wonach man suchen muss. Von Martin Röttgerding.

Das kostenlose Tool Xenu's Link Sleuth (http://home.snafu.de/tilman/xenulink.html), gemeinhin "Xenu" genannt, ist primär dazu gedacht, tote Links auf einer Website aufzuspüren. Allerdings lassen sich damit auch viele andere Analysen durchführen, so dass das Tool bei der Suchmaschinenoptimierung inzwischen zum Handwerkszeug gehört.

Los geht's

Bevor sich Analysen durchführen lassen, muss Xenu zunächst eine Website erfassen. Dazu holt sich Xenu alle Seiten der Website. Begonnen wird mit einer bestimmten Seite (z. B. der Startseite einer Website), wo nach Links zu weiteren Seiten gesucht wird. Diese Seiten werden dann ebenfalls abgerufen und nach Links durchsucht. Dies wird so oft wiederholt, bis alle Seiten abgerufen wurden.

Xenu funktioniert also ähnlich wie ein Suchmaschinen-Crawler, so dass man dieses Tool gut dafür nutzen kann, typische Probleme einer Website zu erkennen. In einem Punkt unterscheidet sich XENU aber von einem Crawler: Es werden weder die robots.txt noch die Robots-Meta-Tags beachtet.

Um eine Website zu erfassen, klickt man links oben auf Check URL und gibt den Startpunkt (z. B. www.suchradar.de) ein. Ein Häkchen darunter gibt an, ob auch externe Links überprüft werden sollen. Außerdem können weitere URLs für die Analyse als intern behandelt werden. Das ist z. B. sinnvoll, wenn sich eine Website über mehrere Subdomains erstreckt (z. B. blog.beispiel.de und www.beispiel.de). Auch ein Ausschluss von URLs ist möglich. Schließlich gibt es noch einige weitere Einstellmöglichkeiten nach einem Klick auf More Options.

Nachdem alle Einstellungen vorgenommen wurden, holt Xenu zunächst die erste URL ab. Anschließend werden die dort verlinkten Seiten abgeholt ebenfalls auf neue Links geprüft. Auch PDFs, Bilder, Videos, Style-Sheets und andere Dateien werden dabei gefunden, allerdings ruft Xenu hier nur die HTTP-Header ab, ohne die Dateien selbst herunterzuladen. Xenu parallelisiert die Abrufe, so dass immer mehrere URLs gleichzeitig abgeholt werden. Die Anzahl der gleichzeitigen Abrufe lässt sich bei den Starteinstellungen unter More Options regeln. Genug Bandbreite vorausgesetzt kann die Maximaleinstellung von 100 gesetzt werden; die Voreinstellung lautet 30.

Den Fortschritt der Erfassung sieht man unten rechts in der Statusleiste, wobei sich die Anzahl der abzurufenden URLs so lange erhöht, wie noch neue Links gefunden werden. Je nach Umfang der analysierten Website und der Zahl der parallelen Abrufe, kann die Analyse schnell fertig sein oder sehr lange dauern. Bei extrem großen Websites spielt irgendwann außerdem die Größe des Hauptspeichers eine Rolle. Deshalb kann es sinnvoll sein, die Tiefe der Erfassung zu beschränken, so dass Xenu z. B. nur Seiten bis zu einer Tiefe von 5 abholt. Als Tiefe wird dabei die Zahl der Schritte bezeichnet, die nötig sind, um vom Startpunkt aus zu einer bestimmten Seite zu kommen. Die erste Seite hat also eine Tiefe von 0, die dort verlinkten Seiten eine von 1, die wiederum von dort verlinkten Seiten eine von 2 usw. Eine maximale Tiefe für die Erfassung kann unter More Options eingestellt werden.

Broken Link Report

Sobald Xenu die Erfassung einer Website abgeschlossen hat, kann ein "Broken Link Report" generiert werden, in dem alle internen und externen Links (je nach Voreinstellung) angezeigt werden. Die Frage nach einer FTP-Verbindung kann allerdings getrost verneint werden; der Report wird dann im Browser angezeigt. Aufgelistet werden als erstes alle URLs, die einen Fehler geliefert haben, sowie die Seiten, die darauf verlinkten. Anschließend gibt es diese Auswertung auch anders herum: Als Auflistung von Seiten, welche auf fehlerhafte URLs verweisen. Auch Redirects werden von Xenu separat aufgelistet.

Ebenfalls im Broken Link Report enthalten sind alle validen URLs (inklusive externe) und eine Sitemap. Letztere besteht aus den Seitentiteln, welche je nach Tiefe der Seite eingerückt sind und auf die Seite verlinken. Eine Zusammenfassung gibt außerdem einige Information über die Verteilung der Seitentypen und deren Dateigrößen.

URL-Tabelle analysieren

Viele Analysen lassen sich auch ohne Report direkt im Xenu-Fenster durchführen. Die hier enthaltene URL-Tabelle enthält viele interessante Angaben und lässt sich durch Klicks auf die Spaltenüberschriften nach der jeweiligen Eigenschaft sortieren. Mit einem Klick auf Properties lassen sich für jede URL auch einige Details aufrufen. Reicht die einfache Tabellenansicht noch nicht aus, so lässt sich der Report auch als Tabulator-separierte Liste (TSV) abspeichern. Diese kann dann bequem mit einem Tabellenkalkulationsprogramm wie Excel geöffnet werden, wo umfangreichere Sortierfunktionen zur Verfügung stehen.

Klicktiefe

Vorausgesetzt, man hat die Erfassung der Website auf der Startseite begonnen, entsprechen die Werte in der Spalte Level der Klicktiefe - also der Anzahl von Klicks, die man mindestens benötigt, um von der Startseite aus zu der jeweiligen URL zu kommen. Sortiert man die Tabelle nach dem Level, so sieht man gleich die Seiten mit Klicktiefe 1, die von der Startseite aus verlinkt werden. Hier sollten tendenziell die wichtigsten Seiten stehen, denn diesen kommt ein hohes internes Gewicht zu.

Wichtig ist aber auch das untere Ende der Tabelle, also die Seiten mit der höchsten Klicktiefe. Seiten, die erst nach vielen Klicks erreicht werden können, werden von Suchmaschinen für relativ unwichtig erachtet und entsprechend selten oder gar nicht abgeholt oder indexiert.

Es gibt bei der Klicktiefe nicht unbedingt einen kritischen Wert, den man auf keinen Fall überschreiten sollte. Vielmehr hängt die kritische Klicktiefe u.a. von der Linkpopularität der Website ab. Aber: Zweistellige Werte sollten auf jeden Fall vermieden werden.

Website-Betreiber sollten bei zu tiefen Seiten reagieren und, in Einzelfällen, tiefe aber wichtige Seiten von höheren Seiten aus anlinken. Sind hingegen sehr viele vermeintlich wichtige Seiten betroffen, so muss möglicherweise die Struktur der Website an sich verändert werden (z. B. durch eine Optimierung der Paginierung, siehe auch suchradar Ausgabe 23 "Erfolgsfaktoren für Paginierung").

Eingehende und ausgehende Links

In den Spalten In Links und Out Links findet sich für jede URL die Anzahl der ein- und ausgehenden Links. Die URLs, die eine extrem hohe Anzahl von eingehenden Links aufweisen, sind oftmals von jeder Seite aus verlinkt, weil die entsprechenden Links im Seiten-Template enthalten sind. Tauchen hier unwichtige Seiten auf, sollte über eine Änderung des Templates nachgedacht werden, um die Linkkraft auf wichtigere Seiten zu konzentrieren. Sind unter den häufig verlinkten URLs auch externe, so sollte geprüft werden, ob dies tatsächlich gewollt ist. Umgekehrt sollte auch geprüft werden, ob wichtige Seiten ausreichend oft angelinkt werden.

Auch die Seiten mit den meisten ausgehenden Links können interessant sein. Hier sollte geprüft werden, ob die Zahl der Links vertretbar ist. Interessant kann diese Größe auch sein, um bei fremden Websites nach Linklisten oder Eintragsmöglichkeiten für eigene Links zu suchen.

Manchmal enthalten Websites Links, deren Existenz dem Betreiber nicht bewusst ist. Dies kann insbesondere bei Links zu Spam-Sites zum Problem werden, weil Suchmaschinen den Verlinkenden dann ebenfalls abwerten können. Durch eine Sortierung der Spalte Address können externe URLs nach oben geholt werden, um die Liste nach unerwünschten Verlinkungen durchzusehen. Entweder sollten derartige Links dann grundsätzlich vermieden werden oder aber durch das Attribute "rel=nofollow" gegenüber Suchmaschinen entwertet werden.

Seitenanalyse

Sehr rudimentär lassen sich auch einige Faktoren der On-Page-Optimierung mit Xenu überprüfen. Sortiert man die Liste nach der Spalte Title, lassen sich Seiten ohne Seitentitel finden. Nimmt man Excel zu Hilfe, so kann man zusätzlich noch eine Spalte mit der Länge des Seitentitels (Formel "=LÄNGE(F2)") einfügen und so auch Seiten mit besonders kurzen oder langen Titeln finden.

Beides lässt sich auch auf Meta-Beschreibungen anwenden (Spalte Description). Dabei entdeckt man dann z. B., dass paginierte Seiten (also z. B. http://www.website.de/rubrik/ , http://www.website.de/rubrik/2/, http://www.website.de/rubrik/3), …) dieselbe Meta Description verwenden. Das kann bei Google dazu führen, dass die Meta Description nicht übernommen wird, weil sie eben nicht unique ist.

Auch Duplicate Content kann relativ zuverlässig gefunden werden, wenn nämlich zwei Seiten den gleichen Titel haben. Haben zwei solche Seiten dann noch die exakt gleiche Dateigröße (Spalte Size), so handelt es sich höchstwahrscheinlich um die gleiche Seite unter verschiedenen URLs.

Bilder und Dateien analysieren

Eine Sortierung der Spalte Size fördert die größten Dateien nach oben, so dass sich große Dokumente oder Bilder schnell aufspüren lassen. Bei diesen können dann ggf. Maßnahmen ergriffen werden, um die Ladezeit der betroffenen Seiten zu verbessern.

Bei Bildern findet man in der Spalte Title deren Alt-Text. Ist das Feld leer, so kann geprüft werden, ob das Bild nicht doch eine Beschriftung verdient. Eine Ausnahme stellen hier Bilder dar, die nicht eingebunden, sondern verlinkt wurden. Dann steht an dieser Stelle der HTML-Code des Linktexts.

Daten exportieren

Die von Xenu gesammelten Daten lassen sich auch verwenden, um mit anderen Programmen weitergehende Analysen durchzuführen. Neben dem Export der URL-Tabelle im TSV-Format ist auch ein Export der Struktur als TSV-Datei möglich. Die sog. "Page Map" enthält dann eine lange Liste aller Verlinkungen und damit praktisch die gesamte Website-Struktur in Rohform.

Wer die Struktur auch noch grafisch aufbereitet sehen möchte, kann dazu den Graphviz-Export nutzen. Dabei wird eine Textdatei erstellt, die ebenfalls die Seitenstruktur enthält. Mit dem Open-Source-Programm Graphviz (http://www.graphviz.org/) lässt sich daraus anschließend eine Grafik erstellen (Kommandozeile: dot -Tpng PageMap.gv -o Grafik.png). Man sollte hierbei aber nicht erwarten, dass sich umfangreiche Websites unkompliziert darstellen lassen - in der Praxis können schon sehr kleine Websites zu vollkommen unübersichtlichen Graphen führen.

Zu guter Letzt lässt sich mit Xenu auch noch eine XML-Sitemap erstellen, die dann an Suchmaschinen übermittelt werden kann.

Beispiel 1: Zalando.de

Zugegeben: Zalando.de macht in Bezug auf On-Page-Optimierung schon nahezu fast alles richtig. Aber mit Xenu kann man auch hier noch kleinere Probleme ausmachen, etwa Duplicate Content.

Wer sich durch das Xenu-Ergebnis wühlt, findet z. B. die beiden folgenden URLs:
http://www.zalando.de/damenschuhe/gabor/
http://www.zalando.de/damenschuhe/gabor/&sale=279

Beide URLs liefern dieselben Inhalte und verfügen über kein Canonical-Tag, so dass es hier Suchmaschinen überlassen bleibt, die beiden identischen Seiten intern zusammenzuführen. Hier ergibt sich aber ein typisches Problem bei einer großen Website: Wo wird denn nun auf die zweite URL http://www.zalando.de/damenschuhe/gabor/&sale=279 verlinkt?

Das kann man bei Xenu leicht erfahren, indem man die URL auswählt, auf "Properties klickt" und sich die Sektion "X Pages linking to this one" anschaut. Hier sieht man dann, dass die Seite http://www.zalando.de/gabor/ auf die zweite URL verlinkt. Wer das im Browser überprüft, sieht dann, dass es oben einen Link "Angebote" gibt, der auf diese URL verlinkt.

Sobald man dieses Problem identifiziert hat, kann man sich dann an die Lösung des Problems machen, z. B.

  1. Ein Canonical-Tag einsetzen (die Seite http://www.zalando.de/damenschuhe/gabor/&sale=279 erhält dann die URL http://www.zalando.de/damenschuhe/gabor/ als Canonical-URL zugewiesen)
  2. Den Parameter "sale" als CGI-Parameter einbauen (http://www.zalando.de/damenschuhe/gabor/?sale=279) und diesen über die Google Webmaster Tools als irrelevanten Parameter definieren
  3. Die Seite mit der zweiten URL kann ja auch sinnvoll sein. Dann sollte sie aber hinreichend unterschiedlich zu der Seite mit der ersten URL sein.
Beispiel 2: Feinkostseite.de

Wer sich die Website www.feinkostseite.de im Xenu anschaut, wird schnell ein recht typisches Bild bei Online-Shops entdecken. So gibt es dort zu jeder Produktseite (z. B. http://www.feinkostseite.de/Konfituere-Marmelade/Zwetschgen-Konfituere-von-Faller::179.html) noch eine ähnliche Seite (http://www.feinkostseite.de/shopping_cart.php?cPath=9&BUYproducts_id=179).

Da Xenu allen Links folgt, folgt die Software eben auch Links auf den Produktseiten wie "In den Warenkorb legen" - und so auch in diesem Fall. Die dabei erzeugten Seiten sollten natürlich eigentlich aus den folgenden Gründen nicht für Suchmaschinen zugänglich sein:

  1. Die Seiten erzeugen Near Duplicate Content, weil sie ähnliche Inhalte wie die Produktseiten enthalten.
  2. Suchmaschinen könnten Besucher auch auf diese Seiten schicken, was auch Usability-Sicht sicherlich schlecht ist.
  3. Die Seiten werden auch vom Crawler regelmäßig abgeholt und verschwenden damit "Crawl-Budget".

Aber wie eingangs schon gesagt: Xenu überprüft nicht die robots.txt. Es könnte also sein, dass derlei Seiten trotzdem gesperrt sind. In diesem Fall waren sie das nicht. Es würde also schon helfen, noch die Zeile "Disallow: /shopping_cart" hinzuzufügen.

 

Fazit

Mit Xenu kann man sehr schnell Probleme von Websites finden, z. B. Duplicate Content oder auch irrelevante Seiten. Dadurch, dass Xenu wie ein Crawler funktioniert, kann man hier eine sehr gute Sicht auf eine Website erhalten, die dem Blick einer Suchmaschine ähnelt.

 

Über den Autor

Martin Röttgerding ist Head of SEM bei der SEO-/SEM-Agentur Bloofusion.

E-Mail:
martin.roettgerding@bloofusion.de

Martin Röttgerding (@bloomarty) bei Twitter:
Follow bloomarty on Twitter

 

 

Nichts verpassen...

Folge suchradar auf Twitter

Agenturen & Dienstleister

SEO-/SEM-Agenturen
> Alle Agenturen
> Agenturen in Deutschland, Österreich, Schweiz
> Agenturen in Berlin, Bremen, Düsseldorf, Frankfurt, Hamburg, Hannover, Innsbruck, Köln, München, Wien, Zürich

Weitere Dienstleister:
> Content-Dienstleister
> SEO-/SEM-Tools

Ausgabe 33 (14. Dezember 2011)

Titelthema "SEO-Umfrage":
> Was wird wichtig in 2012?

Außerdem:
> Searchmetrics Essentials
> Google+ Pages
> AdWords-Textanzeigen
> Suche und Recht
> Konferenzen 2012
> Schema.org für Shops
> Link-Datenbanken
> Online-Marketing-Podcasts

Jetzt herunterladen...

 

Unsere Partner

Weitere Partner...

   

 

suchradar ist ein Projekt der
SEO-/SEM-Agentur Bloofusion