|

suchradar.de >
Magazin
> Archiv >
Ausgabe 25 > SEO
in Action - Xenu's Link Sleuth
SEO in Action:
Xenu's Link Sleuth
Das kostenlose Tool Xenu's Link Sleuth kann man sehr gut
nutzen, um typische On-Page-Probleme auf Websites zu identifizieren.
Man muss nur wissen, wonach man suchen muss. Von Martin Röttgerding.
Das kostenlose Tool Xenu's Link Sleuth (http://home.snafu.de/tilman/xenulink.html),
gemeinhin "Xenu" genannt, ist primär dazu gedacht,
tote Links auf einer Website aufzuspüren. Allerdings
lassen sich damit auch viele andere Analysen durchführen,
so dass das Tool bei der Suchmaschinenoptimierung inzwischen
zum Handwerkszeug gehört.
Los geht's
Bevor sich Analysen durchführen lassen, muss Xenu zunächst
eine Website erfassen. Dazu holt sich Xenu alle Seiten der
Website. Begonnen wird mit einer bestimmten Seite (z. B. der
Startseite einer Website), wo nach Links zu weiteren Seiten
gesucht wird. Diese Seiten werden dann ebenfalls abgerufen
und nach Links durchsucht. Dies wird so oft wiederholt, bis
alle Seiten abgerufen wurden.
Xenu funktioniert also ähnlich wie ein Suchmaschinen-Crawler,
so dass man dieses Tool gut dafür nutzen kann, typische
Probleme einer Website zu erkennen. In einem Punkt unterscheidet
sich XENU aber von einem Crawler: Es werden weder die robots.txt
noch die Robots-Meta-Tags beachtet.
Um eine Website zu erfassen, klickt man links oben auf Check
URL und gibt den Startpunkt (z. B. www.suchradar.de)
ein. Ein Häkchen darunter gibt an, ob auch externe Links
überprüft werden sollen. Außerdem können
weitere URLs für die Analyse als intern behandelt werden.
Das ist z. B. sinnvoll, wenn sich eine Website über mehrere
Subdomains erstreckt (z. B. blog.beispiel.de und www.beispiel.de).
Auch ein Ausschluss von URLs ist möglich. Schließlich
gibt es noch einige weitere Einstellmöglichkeiten nach
einem Klick auf More Options.
Nachdem alle Einstellungen vorgenommen wurden, holt Xenu
zunächst die erste URL ab. Anschließend werden
die dort verlinkten Seiten abgeholt ebenfalls auf neue Links
geprüft. Auch PDFs, Bilder, Videos, Style-Sheets und
andere Dateien werden dabei gefunden, allerdings ruft Xenu
hier nur die HTTP-Header ab, ohne die Dateien selbst herunterzuladen.
Xenu parallelisiert die Abrufe, so dass immer mehrere URLs
gleichzeitig abgeholt werden. Die Anzahl der gleichzeitigen
Abrufe lässt sich bei den Starteinstellungen unter More
Options regeln. Genug Bandbreite vorausgesetzt kann die Maximaleinstellung
von 100 gesetzt werden; die Voreinstellung lautet 30.
Den Fortschritt der Erfassung sieht man unten rechts in der
Statusleiste, wobei sich die Anzahl der abzurufenden URLs
so lange erhöht, wie noch neue Links gefunden werden.
Je nach Umfang der analysierten Website und der Zahl der parallelen
Abrufe, kann die Analyse schnell fertig sein oder sehr lange
dauern. Bei extrem großen Websites spielt irgendwann
außerdem die Größe des Hauptspeichers eine
Rolle. Deshalb kann es sinnvoll sein, die Tiefe der Erfassung
zu beschränken, so dass Xenu z. B. nur Seiten bis zu
einer Tiefe von 5 abholt. Als Tiefe wird dabei die Zahl der
Schritte bezeichnet, die nötig sind, um vom Startpunkt
aus zu einer bestimmten Seite zu kommen. Die erste Seite hat
also eine Tiefe von 0, die dort verlinkten Seiten eine von
1, die wiederum von dort verlinkten Seiten eine von 2 usw.
Eine maximale Tiefe für die Erfassung kann unter More
Options eingestellt werden.
Broken Link Report
Sobald Xenu die Erfassung einer Website abgeschlossen hat,
kann ein "Broken Link Report" generiert werden,
in dem alle internen und externen Links (je nach Voreinstellung)
angezeigt werden. Die Frage nach einer FTP-Verbindung kann
allerdings getrost verneint werden; der Report wird dann im
Browser angezeigt. Aufgelistet werden als erstes alle URLs,
die einen Fehler geliefert haben, sowie die Seiten, die darauf
verlinkten. Anschließend gibt es diese Auswertung auch
anders herum: Als Auflistung von Seiten, welche auf fehlerhafte
URLs verweisen. Auch Redirects werden von Xenu separat aufgelistet.
Ebenfalls im Broken Link Report enthalten sind alle validen
URLs (inklusive externe) und eine Sitemap. Letztere besteht
aus den Seitentiteln, welche je nach Tiefe der Seite eingerückt
sind und auf die Seite verlinken. Eine Zusammenfassung gibt
außerdem einige Information über die Verteilung
der Seitentypen und deren Dateigrößen.
URL-Tabelle analysieren
Viele Analysen lassen sich auch ohne Report direkt im Xenu-Fenster
durchführen. Die hier enthaltene URL-Tabelle enthält
viele interessante Angaben und lässt sich durch Klicks
auf die Spaltenüberschriften nach der jeweiligen Eigenschaft
sortieren. Mit einem Klick auf Properties lassen sich für
jede URL auch einige Details aufrufen. Reicht die einfache
Tabellenansicht noch nicht aus, so lässt sich der Report
auch als Tabulator-separierte Liste (TSV) abspeichern. Diese
kann dann bequem mit einem Tabellenkalkulationsprogramm wie
Excel geöffnet werden, wo umfangreichere Sortierfunktionen
zur Verfügung stehen.
Klicktiefe
Vorausgesetzt, man hat die Erfassung der Website auf der
Startseite begonnen, entsprechen die Werte in der Spalte Level
der Klicktiefe - also der Anzahl von Klicks, die man mindestens
benötigt, um von der Startseite aus zu der jeweiligen
URL zu kommen. Sortiert man die Tabelle nach dem Level, so
sieht man gleich die Seiten mit Klicktiefe 1, die von der
Startseite aus verlinkt werden. Hier sollten tendenziell die
wichtigsten Seiten stehen, denn diesen kommt ein hohes internes
Gewicht zu.
Wichtig ist aber auch das untere Ende der Tabelle, also die
Seiten mit der höchsten Klicktiefe. Seiten, die erst
nach vielen Klicks erreicht werden können, werden von
Suchmaschinen für relativ unwichtig erachtet und entsprechend
selten oder gar nicht abgeholt oder indexiert.
Es gibt bei der Klicktiefe nicht unbedingt einen kritischen
Wert, den man auf keinen Fall überschreiten sollte. Vielmehr
hängt die kritische Klicktiefe u.a. von der Linkpopularität
der Website ab. Aber: Zweistellige Werte sollten auf jeden
Fall vermieden werden.
Website-Betreiber sollten bei zu tiefen Seiten reagieren
und, in Einzelfällen, tiefe aber wichtige Seiten von
höheren Seiten aus anlinken. Sind hingegen sehr viele
vermeintlich wichtige Seiten betroffen, so muss möglicherweise
die Struktur der Website an sich verändert werden (z.
B. durch eine Optimierung der Paginierung, siehe auch suchradar
Ausgabe 23 "Erfolgsfaktoren
für Paginierung").
Eingehende und ausgehende Links
In den Spalten In Links und Out Links findet sich für
jede URL die Anzahl der ein- und ausgehenden Links. Die URLs,
die eine extrem hohe Anzahl von eingehenden Links aufweisen,
sind oftmals von jeder Seite aus verlinkt, weil die entsprechenden
Links im Seiten-Template enthalten sind. Tauchen hier unwichtige
Seiten auf, sollte über eine Änderung des Templates
nachgedacht werden, um die Linkkraft auf wichtigere Seiten
zu konzentrieren. Sind unter den häufig verlinkten URLs
auch externe, so sollte geprüft werden, ob dies tatsächlich
gewollt ist. Umgekehrt sollte auch geprüft werden, ob
wichtige Seiten ausreichend oft angelinkt werden.
Auch die Seiten mit den meisten ausgehenden Links können
interessant sein. Hier sollte geprüft werden, ob die
Zahl der Links vertretbar ist. Interessant kann diese Größe
auch sein, um bei fremden Websites nach Linklisten oder Eintragsmöglichkeiten
für eigene Links zu suchen.
Manchmal enthalten Websites Links, deren Existenz dem Betreiber
nicht bewusst ist. Dies kann insbesondere bei Links zu Spam-Sites
zum Problem werden, weil Suchmaschinen den Verlinkenden dann
ebenfalls abwerten können. Durch eine Sortierung der
Spalte Address können externe URLs nach oben geholt werden,
um die Liste nach unerwünschten Verlinkungen durchzusehen.
Entweder sollten derartige Links dann grundsätzlich vermieden
werden oder aber durch das Attribute "rel=nofollow"
gegenüber Suchmaschinen entwertet werden.
Seitenanalyse
Sehr rudimentär lassen sich auch einige Faktoren der
On-Page-Optimierung mit Xenu überprüfen. Sortiert
man die Liste nach der Spalte Title, lassen sich Seiten ohne
Seitentitel finden. Nimmt man Excel zu Hilfe, so kann man
zusätzlich noch eine Spalte mit der Länge des Seitentitels
(Formel "=LÄNGE(F2)") einfügen und so
auch Seiten mit besonders kurzen oder langen Titeln finden.
Beides lässt sich auch auf Meta-Beschreibungen anwenden
(Spalte Description). Dabei entdeckt man dann z. B., dass
paginierte Seiten (also z. B. http://www.website.de/rubrik/
, http://www.website.de/rubrik/2/, http://www.website.de/rubrik/3),
) dieselbe Meta Description verwenden. Das kann bei
Google dazu führen, dass die Meta Description nicht übernommen
wird, weil sie eben nicht unique ist.
Auch Duplicate Content kann relativ zuverlässig gefunden
werden, wenn nämlich zwei Seiten den gleichen Titel haben.
Haben zwei solche Seiten dann noch die exakt gleiche Dateigröße
(Spalte Size), so handelt es sich höchstwahrscheinlich
um die gleiche Seite unter verschiedenen URLs.
Bilder und Dateien analysieren
Eine Sortierung der Spalte Size fördert die größten
Dateien nach oben, so dass sich große Dokumente oder
Bilder schnell aufspüren lassen. Bei diesen können
dann ggf. Maßnahmen ergriffen werden, um die Ladezeit
der betroffenen Seiten zu verbessern.
Bei Bildern findet man in der Spalte Title deren Alt-Text.
Ist das Feld leer, so kann geprüft werden, ob das Bild
nicht doch eine Beschriftung verdient. Eine Ausnahme stellen
hier Bilder dar, die nicht eingebunden, sondern verlinkt wurden.
Dann steht an dieser Stelle der HTML-Code des Linktexts.
Daten exportieren
Die von Xenu gesammelten Daten lassen sich auch verwenden,
um mit anderen Programmen weitergehende Analysen durchzuführen.
Neben dem Export der URL-Tabelle im TSV-Format ist auch ein
Export der Struktur als TSV-Datei möglich. Die sog. "Page
Map" enthält dann eine lange Liste aller Verlinkungen
und damit praktisch die gesamte Website-Struktur in Rohform.
Wer die Struktur auch noch grafisch aufbereitet sehen möchte,
kann dazu den Graphviz-Export nutzen. Dabei wird eine Textdatei
erstellt, die ebenfalls die Seitenstruktur enthält. Mit
dem Open-Source-Programm Graphviz (http://www.graphviz.org/)
lässt sich daraus anschließend eine Grafik erstellen
(Kommandozeile: dot -Tpng PageMap.gv -o Grafik.png). Man sollte
hierbei aber nicht erwarten, dass sich umfangreiche Websites
unkompliziert darstellen lassen - in der Praxis können
schon sehr kleine Websites zu vollkommen unübersichtlichen
Graphen führen.
Zu guter Letzt lässt sich mit Xenu auch noch eine XML-Sitemap
erstellen, die dann an Suchmaschinen übermittelt werden
kann.
Beispiel 1: Zalando.de
Zugegeben: Zalando.de macht in Bezug auf On-Page-Optimierung
schon nahezu fast alles richtig. Aber mit Xenu kann man auch
hier noch kleinere Probleme ausmachen, etwa Duplicate Content.
Wer sich durch das Xenu-Ergebnis wühlt, findet z. B.
die beiden folgenden URLs:
http://www.zalando.de/damenschuhe/gabor/
http://www.zalando.de/damenschuhe/gabor/&sale=279
Beide URLs liefern dieselben Inhalte und verfügen über
kein Canonical-Tag, so dass es hier Suchmaschinen überlassen
bleibt, die beiden identischen Seiten intern zusammenzuführen.
Hier ergibt sich aber ein typisches Problem bei einer großen
Website: Wo wird denn nun auf die zweite URL http://www.zalando.de/damenschuhe/gabor/&sale=279
verlinkt?
Das kann man bei Xenu leicht erfahren, indem man die URL
auswählt, auf "Properties klickt" und sich
die Sektion "X Pages linking to this one" anschaut.
Hier sieht man dann, dass die Seite http://www.zalando.de/gabor/
auf die zweite URL verlinkt. Wer das im Browser überprüft,
sieht dann, dass es oben einen Link "Angebote" gibt,
der auf diese URL verlinkt.
Sobald man dieses Problem identifiziert hat, kann man sich
dann an die Lösung des Problems machen, z. B.
- Ein Canonical-Tag einsetzen (die Seite http://www.zalando.de/damenschuhe/gabor/&sale=279
erhält dann die URL http://www.zalando.de/damenschuhe/gabor/
als Canonical-URL zugewiesen)
- Den Parameter "sale" als CGI-Parameter einbauen
(http://www.zalando.de/damenschuhe/gabor/?sale=279)
und diesen über die Google Webmaster Tools als irrelevanten
Parameter definieren
- Die Seite mit der zweiten URL kann ja auch sinnvoll sein.
Dann sollte sie aber hinreichend unterschiedlich zu der
Seite mit der ersten URL sein.
Beispiel 2: Feinkostseite.de
Wer sich die Website www.feinkostseite.de
im Xenu anschaut, wird schnell ein recht typisches Bild bei
Online-Shops entdecken. So gibt es dort zu jeder Produktseite
(z. B. http://www.feinkostseite.de/Konfituere-Marmelade/Zwetschgen-Konfituere-von-Faller::179.html)
noch eine ähnliche Seite (http://www.feinkostseite.de/shopping_cart.php?cPath=9&BUYproducts_id=179).
Da Xenu allen Links folgt, folgt die Software eben auch Links
auf den Produktseiten wie "In den Warenkorb legen"
- und so auch in diesem Fall. Die dabei erzeugten Seiten sollten
natürlich eigentlich aus den folgenden Gründen nicht
für Suchmaschinen zugänglich sein:
- Die Seiten erzeugen Near Duplicate Content, weil sie ähnliche
Inhalte wie die Produktseiten enthalten.
- Suchmaschinen könnten Besucher auch auf diese Seiten
schicken, was auch Usability-Sicht sicherlich schlecht ist.
- Die Seiten werden auch vom Crawler regelmäßig
abgeholt und verschwenden damit "Crawl-Budget".
Aber wie eingangs schon gesagt: Xenu überprüft
nicht die robots.txt. Es könnte also sein, dass derlei
Seiten trotzdem gesperrt sind. In diesem Fall waren sie das
nicht. Es würde also schon helfen, noch die Zeile "Disallow:
/shopping_cart" hinzuzufügen.
Fazit
Mit Xenu kann man sehr schnell Probleme von Websites
finden, z. B. Duplicate Content oder auch irrelevante
Seiten. Dadurch, dass Xenu wie ein Crawler funktioniert,
kann man hier eine sehr gute Sicht auf eine Website
erhalten, die dem Blick einer Suchmaschine ähnelt.
|
|