Google Analytics Reports: Data Sampling – Freund und Feind zugleich

Beitrag aus Ausgabe 71 / April 2018
Analytics
Maik Bruns

ist Inhaber des auf Webanalyse-Beratung und -Seminare spezialisierten Unternehmens MetrikaDer Google-Analytics- und Tag-Manager-Professional und Coach liebt es, aus Unternehmen und ihren Websites zielorientierte Erfolgsmechanismen herauszukitzeln und sie auf Wachstumskurs zu bringen.

Google Analytics ist in vielen Unternehmen der Schlüssel zum Erfolg. Denn auf Basis der auf der Website erhobenen Nutzerdaten können sehr viele gute und kluge Entscheidungen getroffen werden. Doch was ist, wenn die Datenbasis so groß ist, dass das sogenannte Data Sampling zum Einsatz kommt? Von Maik Bruns.

In diesem Beitrag geht es um eines der größten Ärgernisse, das gleichzeitig auch eine der größten Hilfen in der Webanalyse darstellt: das Data Sampling.

Was ist das? Wann tritt es auf? Und wie kann man es einschränken? Dazu gibt es hier einige Tipps.

Data Sampling kennenlernen

Wer das erste Mal in Google Analytics auf das grüne oder gelbe Schild-Symbol mit dem Haken trifft, ist zunächst einmal irritiert. Bei den meisten Menschen bleibt es erst einmal unbeachtet, obwohl es an relativ prominenter Stelle steht, nämlich am oberen Ende der Reports, zumeist oberhalb der gewählten Segmente (siehe Abbildung 1).

Dieses Schild symbolisiert, ob das sogenannte Sampling – also eine Stichprobenerhebung innerhalb der Daten – aktiv ist (gelbes Symbol) oder nicht (grünes Symbol). Wer mit der Maus über das Symbol fährt, kann weitere Details erfahren (siehe Abbildung 2).

Was bedeutet Stichprobenerhebung (Sampling)?

Sampling ist zunächst einmal keine böse Absicht des Webanalyse-Tools. Grundsätzlich ist es aber so, dass die Darstellung von Tabellen eine gewisse Rechenzeit in Anspruch nimmt. Viele Tabellen in Google Analytics z. B. sind vorberechnet, dort findet in der Regel keine Stichprobenerhebung statt.

Sobald aber mit den Tabellen intensiver gearbeitet wird, beispielsweise durch Segmentierung, bei der die Daten nach bestimmten Kriterien isoliert und untersucht werden, müssten die Tabellen aufwändig neu berechnet werden. Da dies mitunter, je nach Art der Segmentierung, lange dauern kann, wird mit Stichproben gearbeitet.

Wie funktioniert das?

Angenommen, man möchte herausfinden, wie viele Bälle sich in einem Container befinden. Man könnte nun alle Bälle einzeln zählen (vollständige Erhebung) – was je nach Größe des Containers einige Zeit in Anspruch nehmen kann. Gerade bei der Ad-hoc-Datenanalyse ist Zeit aber oftmals Mangelware.

Andererseits kann man z. B. auch nur die Bälle zählen, die sich auf dem Boden des Containers befinden, und dann die Anzahl der Bälle, die die Höhe des Containers darstellen. Im Anschluss werden beide Zahlen miteinander multipliziert – quasi hochgerechnet. Dadurch wird das Ergebnis zwar etwas ungenau, aber im Groben lässt sich so schnell schätzen, wie viele Bälle im Container sind.

Hier wird also eine Stichprobe genommen.

Glück vs. Pech

Bei der Stichprobenerhebung kann man nun entweder Glück oder Pech haben.

Ein Beispiel: Google Analytics nimmt sich 25 % der Daten vor, um eine Stichprobe zu erheben. Im Extremfall kann es z. B. sein, dass damit in Zusammenhang stehende Conversions nur innerhalb dieser 25 % Daten stattfanden und in den anderen 75 % der Daten keine Conversion getätigt wurde.

Bei der Hochrechnung ergibt sich eine extreme Verzerrung, denn Analytics tut so, als würde die Conversion-Zahl um das Vierfache ansteigen.

Allerdings ist dies natürlich ein Extremfall. Die Abbildungen 3 bis 5 zeigen, wie es dazu kommen kann.

Wann wird das Sampling aktiv?

In Google Analytics gibt es unterschiedliche Standards.

In der kostenlosen Version wird das Sampling aktiv, wenn in dem gewählten Analyse-Zeitraum (beispielsweise ein Monat) mehr als 500 000 Sitzungen in der gewählten Property erfasst wurden. Dahingegen schlägt das Sampling in der kostenpflichtigen Version von Google Analytics (Analytics 360) erst bei 200 Millionen Sitzungen zu bzw. bei 50 Millionen, wenn innerhalb des gewählten Zeitraums das aktuelle Datum enthalten ist. Wer nur das aktuelle Datum auswertet, ist auf 1 000 000 Sitzungen begrenzt.

Welche Größe die Stichprobe einnimmt, hängt dabei unter anderem davon ab, wie groß die Datenmenge an sich ist, aber auch, wie hoch die sogenannten Kardinalitäten der gewählten Dimensionen – also zumeist der ersten Spalte in den Berichten – sind (siehe Infokasten). Je geringer die Kardinalität, desto geringer die Gefahr einer Stichprobe.

Kardinalität

Wenn eine Dimension in Google Analytics sehr viele unterschiedliche Werte annehmen kann, spricht man von „hoher Kardinalität“. Eine Dimension beschreibt dabei das „Was?“ in den Daten, während Metriken das „Wie viel?“ darstellen.
Einige Beispiele für Dimensionen können sein: Seite, Zielseite, Geräteklasse, Stadt, Stunde und so weiter.

Die Dimension „Geräteklasse“ weist z. B. eine geringe Kardinalität auf, denn in der Webanalyse nimmt sie gemeinhin nur drei verschiedene Werte ein, nämlich Desktop, Mobile oder Tablet.

Dahingegen kann die Dimension „Seite“ extrem viele verschiedene Werte aufweisen, insbesondere dann, wenn die Website ohnehin über sehr viele verschiedene Seiten verfügt oder diese mittels Parametern, wie etwa Sortier-Parametern, Such-Parametern usw., sehr stark diversifizieren kann.

Sampling kann auch Dimensionen mit hohen Kardinalitäten erreichen, dann werden einzelne Werte mitunter als „(other)“ in den Tabellen zusammengefasst (siehe Abbildung 6).

Die Folgen des Samplings

Insgesamt gilt: Je kleiner die Stichprobe, desto größer werden die Verzerrungen.

In den Reports lässt sich dann mitunter ein merkwürdiges Verhalten feststellen, z. B. dass die Anzahl an Conversions im erfassten Zeitraum immer genau 4 pro Tag sind, niemals aber 1, 2 oder 3. Oder aber alle Conversions finden an nur einem Tag statt (siehe Abbildung 7).

Sampling betrifft allerdings nicht nur Google Analytics – auch andere Webanalyse-Tools greifen aus Performance-Gründen auf das Sampling zurück.

Analyse mit gesampleten Daten?

Generell sollte man sehr vorsichtig sein, sobald das gelbe Symbol aktiv ist. Auf jeden Fall sollte kontrolliert werden, wie stark der Anteil der Stichprobe ist, denn insbesondere bei niedrigen Prozentsätzen ergibt es oftmals keinen Sinn mehr, Auswertungen zu fahren oder Entscheidungen auf Basis dieser Daten zu treffen.

Es gibt mitunter sogar Empfehlungen, überhaupt nicht mit gesampleten Daten zu arbeiten, weil die Gefahr zu groß sei, mit den Daten ins Fettnäpfchen zu treten.

Das mag in Teilen auch stimmen, wenn man nur mit Echtdaten arbeiten möchte, um Entscheidungen zu treffen. Doch in der Webanalyse geht es vielfach um Tendenzen und Trends. Und dann ist eben Augenmaß gefragt, ob die statistische Methode einem einen Strich durch die Daten gemacht hat oder ob die Daten nach wie vor aussagekräftig genug sind, um beispielsweise Hypothesen zur Verbesserung der Website aufzustellen. Die Entscheidung liegt letztlich beim jeweiligen Analysten.

Sieben Möglichkeiten, das Sampling zu reduzieren

Leider lässt sich das Sampling nie ganz ausschalten, wenn wir im Webanalyse-Tool arbeiten. Allerdings gibt es Möglichkeiten, dieses einzuschränken. Sieben dieser Möglichkeiten sind in der Folge aufgeführt.

1. „Höhere Genauigkeit“ einstellen

Wer mit dem Mauszeiger über das gelbe Schild-Symbol fährt, hat dort die Möglichkeit, eine Einstellung zu tätigen, die die Genauigkeit der Daten etwas erhöht (siehe Abbildung 9). Allerdings geht dies zulasten der Performance.

Hier kann man sich also entscheiden, ob man lieber langsamer rechnen und dafür etwas genauere Daten haben möchte oder ob man eher schnell unterwegs und dafür etwas weniger präzise sein will.

Wer jetzt Hoffnung hat, dass sich das Sampling damit komplett reduzieren lässt, der wird enttäuscht. Denn in der Regel wird es nur eine geringe „Verbesserung“ geben.

2. Kürzere Zeiträume wählen

Die Möglichkeit, kürzere Zeiträume und damit weniger Sitzungen zu betrachten, ist eine der besten, um das Sampling zu vermeiden.

In der Konsequenz muss man sich allerdings mehrere Berichte anschauen, um einen längeren Zeitraum auszuwerten – und die Daten der einzelnen Berichte im schlimmsten Fall zusammenrechnen. Wer also zuvor eine Zwei-Monats-Auswertung gemacht hat, muss nun zwei Mal jeweils einen Monat betrachten und die Werte miteinander verquicken.

Dabei muss allerdings berücksichtigt werden, dass eine Addition der Werte bei sitzungsbasierten Metriken, wie z. B. der Absprungrate oder der Conversion Rate, grundsätzlich möglich ist, bei nutzerbasierten Metriken (etwa Anteil neuer Nutzer) sollte davon allerdings abgesehen werden.

3. Dimensionen mit geringer Kardinalität

Reports, bei denen die primäre Dimension eine geringe Kardinalität aufweist, sind weniger anfällig für Sampling (z. B. in Form von „(other)“).

Spannend? Jetzt Artikel zu Ende lesen!

Lesen Sie den Artikel weiter in unserer suchradar Ausgabe 71 von April 2018 mit dem Titelthema „Conversion-Rate-Optimierung: Tipps und Strategien für umsatzstarke Websites“.

Kostenloses PDF-Magazin bestellen Online weiterlesen? Einfach kostenlos für den Newsletter anmelden. Kostenpflichtiges Print-Abo bestellen