Google AdWords:
A/B-Anzeigentests in der Praxis

Indem man verschiedene Anzeigenvarianten im Wechsel schaltet, lässt sich theoretisch ganz einfach feststellen, welche davon am besten funktioniert. In der Praxis ist das Thema allerdings etwas komplizierter. Der Artikel erläutert die bewährten Vorgehensweisen und zeigt auf, warum diesen nicht immer zu trauen ist. Von Martin Röttgerding.

Für Werbetreibende ist es in der Regel schwer, vorherzusagen, mit welcher Anzeige sich die besten Ergebnisse erzielen lassen. Zwar gibt es bestimmte Erwartungen und Vorstellungen zu den Präferenzen der Zielgruppe, doch erweisen sich diese in der Praxis oftmals als unzuverlässig. Spätestens wenn es um Nuancen geht, hilft nur noch ein Test, um die Angelegenheit zu klären.

Google AdWords stellt dazu eine einfache Infrastruktur zur Verfügung. Stellt man mehrere Anzeigen in eine Anzeigengruppe ein, so kann Google diese im Wechsel schalten, um die beste Anzeigenvariante zu ermitteln (A/B-Test).

Vom Großen ins Kleine
Abbildung 1: Fokus auf Preis oder Auswahl? Richtungsentscheidungen trifft man am besten zu Beginn

Abbildung 1: Fokus auf Preis oder Auswahl? Richtungsentscheidungen trifft man am besten zu Beginn

Grundsätzlich ist es nicht verkehrt, immer wieder neue Anzeigenvarianten zu testen, um die Performance der Anzeigen so Schritt für Schritt immer weiter zu verbessern. Um hierbei effizient vorzugehen, sollten zunächst grundsätzliche Aspekte getestet werden, bevor nach und nach feinere Variationen ausprobiert werden. So könnte beispielsweise zuerst geklärt werden, welches Verkaufsargument im Fokus stehen sollte (z. B. Preis oder Qualität), bevor die konkrete Wortwahl optimiert wird. Bei den Anzeigenelementen sollte man sich zunächst auf die Überschrift konzentrieren, da diese am ehesten wahrgenommen wird und somit die größte Wirkung entfaltet.

Die Einfachheit, mit der sich Tests durchführen lassen, kann dazu verleiten, einfach alles zu testen. Dabei ist aber nicht jeder Test sinnvoll: Zwar lassen sich grundsätzlich auch feinste Nuancen testen, doch irgendwann übersteigt der potenzielle Zusatznutzen den für den Test nötigen Aufwand.

Übrigens lassen sich A/B-Anzeigentests auch auf Zielseiten ausweiten: Indem bei verschiedenen – oder gleichen – Anzeigenvarianten unterschiedliche Ziel-URLs hinterlegt werden, können Besucher auf verschiedene Zielseiten verteilt werden. Da Nutzer jedoch nicht selten mehrfach auf die Anzeigen eines Werbetreibenden klicken und dabei nicht sichergestellt wird, dass der gleiche Nutzer immer die gleiche Zielseite sieht, ist dieses Verfahren etwa dem Einsatz des Google Website Optimizers oder anderer Tools unterlegen.

Erfolgskriterien

Wenn es nach Google geht, so entscheidet allein das Klickverhalten darüber, welche Anzeige am Ende zum Gewinner gekürt wird. Anzeigen mit einer hohen Klickrate sorgen dabei nicht nur für hohe Einnahmen bei Google, sondern nutzen auch dem Werbetreibenden, der dadurch möglichst viele Klicks erzielt und nebenbei noch durch bessere Qualitätsfaktoren niedrigere Klickpreise zahlt.

Doch meistens ist eine hohe Klickrate allein nicht Ziel der Sache, da ein Besucher eben noch kein Kunde ist. In diesen Fällen wird neben der Klick- auch die Conversion-Rate zur Beurteilung von Anzeigen herangezogen. Eine gleichzeitige Betrachtung beider Größen ist allerdings problematisch: Was, wenn eine Anzeige eine bessere Klick- aber eine schlechtere Conversion-Rate hat? Noch komplizierter wird es, wenn auch konkrete Umsätze (z. B. Bestellwerte) beachtet werden sollen.

Um diese Konflikte aufzulösen, lässt sich die jeweilige Zielgröße ins Verhältnis zu den Anzeigenimpressionen setzen. Man betrachtet dann also nur noch die Conversions pro Impression bzw. den Umsatz pro Impression.

Was in der Theorie einfach erscheinen mag, ist in der Praxis allerdings oftmals mit sehr viel Aufwand verbunden. Denn während die Daten zu Impressionen und Klicks vergleichsweise schnell gesammelt werden, dauert es mitunter sehr lange, bis aussagekräftige Daten zu Conversions und Bestellwerten vorliegen. Deshalb kann es sinnvoll sein, diese Daten doch nicht zu berücksichtigen – dann nämlich, wenn davon auszugehen ist, dass sich die Anzeigenvarianten hauptsächlich auf das Klickverhalten, nicht aber auf das Kaufverhalten auswirken.

Automatisch oder manuell optimieren?
Abbildung 2: Einstellungen zur Anzeigenschaltung

Abbildung 2: Einstellungen zur Anzeigenschaltung

Die Auswahl der besten Anzeigenvariante kann Google automatisch vornehmen. Dabei werden erfolgreiche Varianten mit der Zeit häufiger geschaltet, während die übrigen Varianten nach und nach in den Hintergrund treten. Nach einiger Zeit erzielt die erfolgreichste Variante über 99 % der Impressionen, die anderen Varianten bleiben bis zu ihrer Abschaltung durch den Werbetreibenden aber noch aktiv.

Ob und wenn ja, wie Google die erfolgreichste Variante ermitteln soll, lässt sich in den Kampagneneinstellungen festlegen (siehe Abbildung 2). Dort findet man unter "Erweiterte Einstellungen" (ganz unten) den Punkt "Anzeigenschaltung". Sofern dort keine Änderungen vorgenommen wurden, optimiert die Anzeigenschaltung im Hinblick auf die Klickmaximierung. Dazu betrachtet Google das Klickverhalten und ermittelt so die Anzeige mit der potenziell höchsten Klickrate.

Möglich ist auch eine Optimierung im Hinblick auf Conversions. Als Zielgröße dient hierbei das Verhältnis von Impressionen zu Conversions, nicht die bloße Conversion-Rate. Bis jedoch genügend Daten zum Conversion-Verhalten vorliegen, optimiert Google im Hinblick auf die Klickrate. Das Problem hierbei: Google kann recht schnell anhand des Klickverhaltens entscheiden, welche Variante die bessere Klickrate erzielt, wohingegen Conversion-Daten deutlich länger gesammelt werden müssen. Daher besteht hier die Gefahr, dass Google sich zu schnell für die Variante mit der höchsten Klickrate entscheidet. Weil die anderen Varianten dann seltener geschaltet werden kann es passieren, dass niemals oder nur sehr langsam aussagekräftige Conversion-Daten für diese Varianten gesammelt werden und es somit bei einer reinen Klick-Optimierung bleibt.

Wer Google die Optimierung nicht selbst überlassen möchte, kann stattdessen die dritte Option „Leistungsunabhängig“ (engl.: „rotate“) wählen, so dass alle Anzeigen „möglichst im gleichen Verhältnis“ geschaltet werden.

Die Wahl der leistungsunabhängigen Anzeigenschaltung wird von praktisch allen unabhängigen Experten uneingeschränkt empfohlen und bildet die Basis für das in der Branche weitgehend akzeptierte Verfahren des A/B-Testings. Nach gängiger Auffassung sollten Anzeigen bei der leistungsunabhängigen Schaltung abwechselnd zum Einsatz kommen, so dass gleichmäßig Daten gesammelt werden können. Sobald feststeht, dass eine Anzeigenvariante im Vergleich zu einer anderen weniger erfolgreich ist, wird sie deaktiviert, bis schließlich nur noch eine Variante übrig bleibt.

Statistische Signifikanz

Ob eine Anzeige besser ist als eine andere, lässt sich prinzipiell einfach an der Zielgröße (z. B. Klickrate) ablesen. Dass man damit allein nicht weit kommt, zeigt sich allerdings gleich zu Beginn: Nach den ersten Klicks kann es gut sein, dass sich die Klickraten der Anzeigen deutlich unterscheiden, allerdings wird man auf dieser dünnen Grundlage wohl noch keine Entscheidung treffen wollen. Auch pauschale Regeln wie „erst mal 100 Klicks abwarten“ sind nicht sinnvoll: Wenn sich diese 100 Klicks im Verhältnis 90:10 auf die Varianten verteilen, hätte man vermutlich besser schon viel früher aufgehört, während bei einem Verhältnis von 51:49 wohl noch deutlich mehr Daten benötigt werden.

Klarheit schaffen hier statistische Tests, mit denen sich ermitteln lässt, wie wahrscheinlich es ist, dass eine Variante tatsächlich besser ist als eine andere. Dies kann durchaus anspruchsvoll werden, allerdings muss man sich dank frei verfügbarer Online-Tools (z. B. http://tools.seobook.com/ppc-tools/calculators/split-test.html) in der Regel nicht näher in die Materie einarbeiten. Typischerweise gibt man in diese Tools nur die Zahl der Versuche und Erfolge ein und bekommt dann eine Aussage über die Signifikanz des Unterschieds. Als Versuche bezeichnet man dabei die Impressionen oder auch Klicks, Erfolge können Klicks oder Conversions sein (damit wird ein Klick beispielsweise als erfolgreiche Impression betrachtet).

Je nach Tool bekommt man außerdem noch eine Angabe, die mal als Signifikanz, Konfidenz oder schlicht Wahrscheinlichkeit bezeichnet wird. Diese Angabe bezieht sich auf die Wahrscheinlichkeit, korrekt zu erkennen, dass eine Anzeigenvariante keine besseren Ergebnisse liefert als eine andere. Ein Wert von 90 % bedeutet also, dass man mit einer Wahrscheinlichkeit von 10 % falsch läge, wenn man nun die vermeintlich schlechtere Anzeige aussortieren würde. Anders ausgedrückt: In jedem zehnten Fall käme man so zum falschen Ergebnis. Wer also besonders sicher sein möchte, kann einen Wert von 95 % oder höher anstreben. Bis dieser erreicht ist, muss der Test weiterlaufen, um weitere Daten zu sammeln. Hundertprozentige Sicherheit gibt es allerdings nicht.

Manche Tools geben auch nur an, welche Schwelle überschritten wurde. Anstatt 92 % wird dann ein Signifikanzniveau von 90 % angegeben, was so viel wie „90 % oder besser“ heißt. Wieder andere Tools liefern statt eines Wertes nur eine vage Aussage („einigermaßen sicher“) oder eine Ja-/Nein-Antwort zurück. In diesen Fällen beziehen sich die Aussagen auf bestimmte Schwellen, die teilweise im Beschreibungstext der Tools erläutert werden.

Komplizierter wird es, wenn auch Bestellwerte in die Betrachtung mit einbezogen werden sollen. Auch hierfür gibt es statistische Tests (z. B. den Z-Test), allerdings müssen die Daten zuvor geprüft werden. Falls es dort Ausreißer, also besonders hohe oder niedrige Bestellwerte gibt, kann es sinnvoll sein, diese auszusortieren, um so Verzerrungen zu vermeiden.

Signifikanz ohne Traffic

Ganz allgemein lässt sich sagen, dass bei Anzeigenvarianten, die unterschiedlich gute Ergebnisse erzielen, mit der Zeit jedes Signifikanzniveau erreichbar ist. In der Praxis gibt es jedoch viele Fälle, in denen Anzeigengruppen nur sehr wenige Impressionen erzielen, so dass Tests theoretisch Jahre dauern würden. Dies ist vor allem dann der Fall, wenn Anzeigengruppen detailliert auf Suchanfragen zugeschnitten wurden.

Abbildung 3: Filtern, nach unten scrollen und Zusammenfassung ablesen - die schnelle Alternative zur Pivot-Tabelle

Abbildung 3: Filtern, nach unten scrollen und Zusammenfassung ablesen - die schnelle Alternative zur Pivot-Tabelle

Prinzipiell gibt es zwei Wege, um selten zum Einsatz kommende Anzeigen mithilfe von A/B-Tests zu optimieren. Der erste besteht ganz einfach darin, die aussagekräftigen Ergebnisse von anderen Anzeigengruppen darauf zu übertragen. Alternativ kann man die gleichen Anzeigenvarianten in vielen Anzeigengruppen gleichzeitig testen und die Ergebnisse später zusammenfassen. Um die Zusammenfassung vorzunehmen, kann man die Ergebnisse in eine Tabellenkalkulation exportieren, und so beispielsweise mit Pivot-Tabellen in Excel arbeiten. Wesentlich schneller geht es jedoch, wenn man die Filterfunktionen auf der AdWords-Oberfläche nutzt. Oftmals reicht es schon, einen Teil einer Anzeigenvariante in das Suchfeld oberhalb der Grafik einzugeben, um anschließend unten (in der gelb hinterlegten Zeile) die zusammengefassten Ergebnisse ablesen zu können.

Voraussetzung für beide Verfahren ist, dass sich die verschiedenen Anzeigengruppen strukturell ähneln. Das wäre beispielsweise der Fall, wenn Produkte (z. B. Handtücher) in verschiedenen Farben beworben werden und es für jede Farbe eine eigene Anzeigengruppe (weiße Handtücher, blaue Handtücher, …) gibt. Problematisch wird es allerdings, wenn es dann doch wieder Unterschiede gibt, die man von vorneherein vielleicht nicht sieht. Beispielsweise könnte das Verkaufsargument „große Auswahl“ gute Ergebnisse erzielen, allerdings gibt es von den schwarzen Handtüchern nur wenige im Shop, was die Conversion-Rate wieder drückt. Derartige Sonderfälle können bei einer Gesamtbetrachtung leicht übersehen werden.

Tests begrenzen

In manchen Fällen möchte steht man auch vor einem gegenteiligen Problem, nämlich, dass eine Anzeigengruppe eigentlich zu viel Traffic bekommt. Das ist zwar im Hinblick auf die schnell verfügbare gute Datengrundlage eigentlich ein Vorteil, allerdings möchte man auch das Risiko minimieren, mit einer schwächeren Variante zu schlechte Ergebnisse zu erzielen. Den Test dann einfach schneller zu beenden ist oft keine befriedigende Lösung, beispielsweise wenn Daten über einen längeren Zeitraum gesammelt werden sollen, um etwa saisonale Einflüsse zu sehen.

Um den Anteil einer Variante an den Impressionen zu beschneiden, kann man einen A/B-Test auch mithilfe von Kampagnenexperimenten (siehe suchradar Ausgabe 29) durchführen. Hier lässt sich einstellen, welchen Anteil die neuen Anzeigen bekommen sollen. Der Nachteil dabei ist, dass man immer auf einen Test pro Kampagne beschränkt ist.

Mithilfe eines Tricks kann man jedoch auch selber steuern, wie oft welche Variante zum Einsatz kommt. Indem man Anzeigenvarianten kopiert und die Anzeigenschaltung auf leistungsunabhängig stellt, lassen sich die Varianten auch in anderen Verhältnissen schalten. Wird also beispielsweise die ursprüngliche Anzeige noch zweimal kopiert, dann wird aus dem A/B-Test praktisch ein A/A/A/B-Test – die drei A-Varianten zusammen kommen also in drei von vier Fällen zum Einsatz.

Grenzen von AdWords-A/B-Tests

Auch wenn es in der Branche gerne anders dargestellt wird: A/B-Testing von AdWords-Anzeigen ist von einer exakten Wissenschaft weit entfernt. Das liegt hauptsächlich daran, dass die Voraussetzungen für einen sauberen Test nicht gegeben sind. Denn die Ergebnisse von Anzeigenvarianten, die miteinander verglichen werden, stellen nur einen stark vereinfachten Ausschnitt der Realität dar.

So bleibt zum Beispiel außen vor, wie viele Nutzer sich hinter den Zahlen verbergen. Ein Nutzer, der mehrere Male mit der gleichen Anzeige konfrontiert wird, wird in den Statistiken nicht anders behandelt als mehrere Nutzer, die die Anzeige nur jeweils einmal sehen. Zwar lassen sich solche Vorkommnisse durch die abwechselnde Schaltung der Anzeigen prinzipiell wieder ausgleichen, sie erhöhen jedoch die Varianz der Ergebnisse und machen die Daten dadurch weniger aussagekräftig, so dass die statistische Signifikanz eigentlich erst später erreicht würde. Probleme dieser Art gibt es bei AdWords leider zuhauf.

Ein ähnlich gelagertes Problem ist, dass die konkreten Anzeigenpositionen ebenfalls außen vor bleiben. Einsehbar ist lediglich der Mittelwert der Positionen, auf eine Nachkommastelle genau. Doch selbst wenn der Wert exakt einsehbar wäre: Ob eine Anzeige abwechselnd auf den Positionen 2 und 4 oder immer auf Position 3 war, macht einen großen Unterschied bei den Klickraten, welche im Mittel wohl nicht übereinstimmen dürften. Darüber hinaus lässt sich aus der durchschnittlichen Anzeigenposition nicht ablesen, wie oft eine Anzeige auf den Top-Positionen, also oberhalb der organischen Suchergebnisse, eingeblendet wurde.

Abbildung 4: Top-Position mit Domain in der Überschrift, Sitelinks und Verkäuferbewertungen - nichts davon findet sich in den AdWords-Statistiken wieder

Abbildung 4: Top-Position mit Domain in der Überschrift, Sitelinks und Verkäuferbewertungen - nichts davon findet sich in den AdWords-Statistiken wieder

Eine weitere Unwägbarkeit stellen die verschiedenen Anzeigenformate und Anzeigenerweiterungen dar. Wird eine Anzeige beispielsweise mit Sitelinks eingeblendet, dann steigt die Klickrate dadurch enorm. Wird sie mit einer verlängerten Überschrift eingeblendet oder rückt der Domainname in die Überschrift, so hat dies ebenfalls Auswirkungen – allerdings gibt es dazu keine Daten, da Google gar nicht erst angibt, wie oft welches Format zum Einsatz gekommen ist.

Besonders problematisch sind hierbei Wechselwirkungen zwischen den Anzeigenvarianten und den Formaten. So ist das Format mit verlängerten Anzeigenüberschriften beispielsweise vom Anzeigentext abhängig. Erkennt Google in der ersten Textzeile einen abgeschlossenen Satz, so kann dieser an die Überschrift angehängt werden. Dafür ist allerdings eine Top-Position Voraussetzung, welche wiederum stark von den hinterlegten Klickgeboten abhängt. Dadurch kann es passieren, dass ein Test bei hohen Geboten zu ganz anderen Ergebnissen kommt als bei niedrigen Geboten – wenn nämlich eine Variante auf den Top-Positionen dank verlängerter Überschrift besser funktioniert, die andere Variante aber sonst besser wäre. In diesem Fall würde man vielleicht eine gute Variante aussortieren, obwohl es letztlich nicht am Inhalt, sondern vielleicht nur am Fehlen eines Satzzeichens gelegen hat.

Völlig unberechenbar sind darüber hinaus die Experimente, die Google ständig mit Anzeigen vornimmt. So testet Google laufend neue Formate, meist, ohne dass Werbetreibende dies mitbekommen. Ein solches Format waren auch die verlängerten Überschriften, die eben vom Anzeigeninhalt abhängen. In solchen Fällen können die Ergebnisse eines Tests verzerrt werden, ohne dass der Werbetreibende eine Möglichkeit hätte, dies zu bemerken.

Der Qualitätsfaktor als Störfaktor

Eine systematische Unwägbarkeit entsteht durch den Einfluss des Qualitätsfaktors. Denn der Qualitätsfaktor hängt maßgeblich von der geschalteten Anzeige ab und wirkt sich auf die Anzeigenposition aus. Dies führt nicht selten dazu, dass neue Anzeigen zu Beginn erst mal etwas niedriger und seltener auf Top-Positionen angezeigt werden, was beides zu schlechteren Klickraten führt. Dies verzerrt vor allem kurze Tests, wobei dies immerhin noch an den unterschiedlichen Durchschnittspositionen ablesbar wird. Im weiteren Verlauf des Tests hängen die Ergebnisse dann davon ab, wie Google die Klickwahrscheinlichkeit der Anzeigen einschätzt. Kleine Unterschiede können sich in unterschiedlichen Anzeigenpositionen niederschlagen, bei der Durchschnittsposition möglicherweise aber nicht mehr auffallen. Je nachdem, wie richtig Google bei der Berechnung des Qualitätsfaktors liegt, profitiert davon entweder die bessere oder die schlechtere Anzeigenvariante.

Nebenbei sind unterschiedliche Qualitätsfaktoren auch der Grund dafür, dass Anzeigen, die eigentlich abwechselnd bzw. im gleichen Verhältnis erscheinen sollten, unterschiedliche Impressionen-Zahlen aufweisen. Das gleiche Verhältnis bezieht sich nämlich nicht auf die Einblendungen, sondern auf die Zahl der Anzeigenauktionen – und ein niedrigerer Qualitätsfaktor kann in Einzelfällen schon mal bedeuten, dass eine Anzeige nicht gezeigt wird.

Abhängigkeiten und andere Störfaktoren

Weitere Fehlerquellen können sich aus externen Faktoren ergeben, welche in der Theorie oft zumindest problemlos gesehen werden könnten, in der Praxis jedoch schon mal unter den Tisch fallen. Klassische Beispiele hierfür sind saisonale Faktoren: Wer Swimmingpools verkauft hat mit dem Verkaufsargument „schnelle Lieferung – steht morgen in Ihrem Garten“ im Sommer wahrscheinlich mehr Erfolg als im Winter. Andere externe Einflussfaktoren – z. B. das Wetter am Wohnort des Nutzers – bleiben dagegen oft ganz verborgen.

Auch der Einfluss konkreter Suchanfragen kann als Störfaktor aufgefasst werden. Denn welche Anzeige bei welcher Suchanfrage eingeblendet wurde, bleibt außen vor. Dabei ist es gut möglich, dass eine Variante nur in Verbindung mit bestimmten Suchanfragen besonders erfolgreich ist, die Anzeigengruppe also eigentlich aufgeteilt werden sollte. In der Praxis wäre das beispielsweise realistisch, wenn eine Anzeige den Begriff „günstig“ und eine den Begriff „preiswert“ in den Vordergrund rückt. Wird dann eine Suchanfrage in Verbindung mit „günstig“ eingegeben, wird dieses Wort in der einen Variante fett markiert, was sich positiv auf die Klickrate auswirkt. Das bedeutet aber nicht, dass „günstig“ in den anderen Fällen auch das bessere Verkaufsargument wäre.

Eine Folge des Einflusses der Suchanfragen ist, dass sich eine Änderung bei den Keywords (inklusive der ausschließenden Suchbegriffe) auch auf die Performance der Anzeigen auswirken kann. Die Ergebnisse eines Tests können danach also ganz andere sein.

Konsequenzen

Für viele der bisher genannten Probleme gilt, dass sie bei einem ausreichend langen Test und einer entsprechend großen Datengrundlage irgendwann in den Hintergrund treten. Wann das der Fall ist, lässt sich jedoch nicht sagen. Klar ist nur, dass beim Einsatz von statistischen Tests bzw. Tools dafür alle Störfaktoren schlicht ausgeblendet werden. Das hat zur Folge, dass die angegebenen Konfidenzen oder Signifikanzniveaus vermutlich um Größenordnungen zu optimistisch sind.

Eine pragmatische Konsequenz wäre, sich zumindest im Hinblick auf eine Optimierung der Klickraten doch wieder auf Googles automatische Optimierung zu verlassen. Diese hat in der Branche eigentlich einen schlechten Ruf, denn die Ergebnisse sind von außen oft nicht nachzuvollziehen. Doch der Algorithmus hinter der automatischen Optimierung berührt direkt Googles Geschäftsinteressen: Je höher die Klickrate einer Anzeige, desto mehr Geld kann Google daran verdienen. Und schon allein, weil die automatische Optimierung die Standardeinstellung ist, wird sie sehr häufig genutzt und hat entsprechende Bedeutung für Google. Dass Google den Algorithmus hinter der Optimierung also tatsächlich schlecht entwickelt hat, ist damit sehr unwahrscheinlich.

Sinnvoller erscheint dagegen die Erklärung, dass sich Google eben nicht nur die Endergebnisse ansieht, sondern auch sehr viele Einzelfaktoren (darunter die bisher angesprochenen Punkte) berücksichtigt. Dass Google hierbei schneller und zu verlässlicheren Ergebnissen kommt, scheint da nur logisch.

In Hinblick auf die Optimierung von Conversion-Raten oder Bestellwerten helfen die automatischen Optimierungsmöglichkeiten von Google nur eingeschränkt oder gar nicht weiter. Hierfür wird man sich wohl weiter mit der leistungsunabhängigen Anzeigenschaltung begnügen müssen, um später selbst eine Entscheidung zu treffen – sei es auf Grundlage eines einfachen statistischen Tests oder anderer Analysen und Überlegungen.

Eine Zwischenlösung für die Optimierung im Hinblick auf Klicks und Conversions besteht darin, Google zunächst mithilfe der leistungsunabhängigen Schaltung dazu zu zwingen, Daten zu sammeln. Später stellt man dann auf die gewünschte Optimierungsmethode um, so dass Google die gesammelten Daten bestmöglich nutzen kann. Da Googles Einsicht hier über einfache Summen von Impressionen, Klicks und Conversions hinausgeht, sollte Google zu einer besseren Entscheidung kommen als ein Außenstehender, der eben nur die genannten Summen als Entscheidungsgrundlage hat.

Der Test als Störfaktor

Ganz außen vor bleibt bei alldem noch ein weiterer, möglicherweise gravierender Störfaktor: Die wechselseitige Beeinflussung verschiedener Anzeigenvarianten untereinander. Denn viele Nutzer sehen mehr als einmal eine Anzeige eines Werbetreibenden. Wenn sie dabei mit verschiedenen Verkaufsargumenten konfrontiert werden, kann sich dies positiv auf die Performance der Anzeigengruppe auswirken. Anders ausgedrückt: Zwei verschiedene Anzeigen könnten miteinander bessere (oder andere) Ergebnisse erzielen als wenn nur die vermeintlich bessere Anzeige alleine geschaltet wird. Dies zu testen gestaltet sich allerdings schwer.


Fazit

A/B-Tests von AdWords-Anzeigen sind ohne Frage ein komplexes Thema. Allerdings spricht vieles dafür, dass die in der Branche generell akzeptierte und weit verbreitete Vorgehensweise, mithilfe von statistischen Tests Aussagen zu machen, eine trügerische Sicherheit vorgaukelt. Wer ganz einfach nur seine Anzeigen im Hinblick auf Klickraten optimieren möchte, fährt mit der Standardeinstellung wahrscheinlich besser.

 

Über den Autor

Martin Röttgerding ist Head of SEM bei der SEO-/SEM-Agentur Bloofusion.

E-Mail: martin.roettgerding@bloofusion.de
Martin Röttgerding (@bloomarty) bei Twitter: Follow bloomarty on Twitter