Skip to main content
SteerAds
TutorialGoogle Ads

Google Ads Experiments und Drafts: A/B-Testing 2026

Meinungen senken den CPA nicht — saubere Tests schon. Die Experiments und Drafts von Google Ads teilen Ihren Traffic für ehrliche A/B-Auswertungen zu Geboten, RSAs und Landingpages. Dieser Leitfaden behandelt Einrichtung, die 95-Prozent-Signifikanzschwelle und wie Sie über 6 Phasen falsche Gewinner vermeiden.

Andrew
AndrewSmart Bidding & Automation Lead
···4 Min Lesezeit

Etwa 60 Prozent der „gewinnenden" Google-Ads-Änderungen, die Werbetreibende 2026 ausrollen, wurden nie wirklich bewiesen — sie wurden beurteilt, indem dieser Monat mit dem letzten verglichen wurde, wo Saisonalität, Konkurrenz und ein Dutzend anderer Bearbeitungen sich alle zugleich bewegten. Ein Experiment beseitigt diese Verwirrung, indem es die alte und die neue Version nebeneinander, in denselben Auktionen, zur selben Zeit laufen lässt, sodass das Einzige, was sich unterscheidet, die eine Änderung ist, die Sie testen.

Dieser Leitfaden führt durch Drafts und Experiments von Anfang bis Ende — was zu testen ist, wie man Traffic aufteilt, wie viele Daten Sie brauchen und wie man das Ergebnis liest, ohne sich selbst zu täuschen — damit Ihr nächster „Sieg" ein echter ist. Um zu sehen, welche Teile Ihres Kontos sich zuerst am meisten zu testen lohnen, starten Sie unser kostenloses 5-Achsen-Google-Ads-Audit.

Aktualisiert am 2026-05-17 mit dem aktuellen Verhalten von Drafts und Experiments, den Smart-Bidding-Lernfenstern und der Signifikanzpraxis, beobachtet über US-, UK- und europäische Konten.

TL;DR — in Google Ads testen, ohne sich selbst zu täuschen :
  1. Erst Draft, dann Experiment — ein Draft ist eine sichere Sandbox; das Experiment teilt echten Traffic. 2. Eine Variable pro Test — ändern Sie die Gebotsstrategie oder die Landingpage, nie beide. 3. Lassen Sie Arme gleichzeitig laufen — beide erleben dieselbe Saisonalität, Zeit ist kein Störfaktor mehr. 4. Dimensionieren Sie die Stichprobe vor dem Schauen — zielen Sie auf über 100 Conversions pro Arm und 2 bis 4 volle Wochen. 5. 95 Prozent ist ein Tor, keine Ziellinie — ein nicht signifikantes Ergebnis ist unbewiesen, kein Unentschieden.

Was sind Drafts und Experiments in Google Ads?

Drafts und Experiments sind zwei Hälften desselben Arbeitsablaufs, und die Aufteilung zu verstehen, ist die Grundlage für jeden Test weiter unten. Ein Draft ist eine Staging-Kopie; ein Experiment ist der Live-Vergleich, den diese Kopie möglich macht.

Drafts — Ein Draft ist ein Sandbox-Duplikat einer Live-Kampagne, in dem Sie Ihre vorgeschlagene Änderung vornehmen, ohne das Original zu berühren. Nichts in einem Draft gibt Geld aus oder schaltet Anzeigen; es ist einfach ein sicherer Ort, eine Bearbeitung zu stagen — eine neue Gebotsstrategie, eine andere Landingpage, eine umgeschriebene RSA — und sie zu prüfen, bevor irgendein Traffic sie sieht.

Experiments — Einen Draft zu einem Experiment zu befördern, macht den Vergleich erst real. Google teilt die infrage kommenden Auktionen der Kampagne zwischen dem Original (der Kontrolle) und dem Draft (der Variante) auf, sodass beide zur selben Zeit gegen dieselbe Konkurrenz und Saisonalität laufen. Diese Gleichzeitigkeit ist der ganze Sinn: Sie entfernt Zeit als Störvariable.

Warum das ein Vorher-Nachher schlägt — Wenn Sie eine Live-Kampagne ändern und letzte Woche mit dieser Woche vergleichen, ist jeder andere bewegliche Teil — Konkurrenz, Nachfrage, Ihre anderen Bearbeitungen — ins Ergebnis eingebacken. Weil ein Experiment beide Arme zusammen laufen lässt, liegt der Unterschied, den Sie messen, weit näher am echten Effekt Ihrer einen Änderung. Zur kausalen Logik dahinter siehe unseren Leitfaden zum Inkrementalitätstest.

Was sollten Sie wirklich zuerst testen?

Nicht jede Änderung verdient ein Experiment, und die, die es verdienen, sollten danach geordnet werden, wie stark sie den CPA bewegen können. Geben Sie Ihren begrenzten Traffic für die wenigen Tests mit echtem Hebel aus, nicht für kosmetische Feinheiten.

Gebotsstrategie — Das ist meist der Test mit dem größten Hebel, weil der Gebotsalgorithmus entscheidet, was Sie für jeden Klick zahlen. Maximize Conversions gegen Target CPA zu vergleichen, oder ein Target CPA gegen ein strafferes, kann die Kosten pro Conversion spürbar bewegen. Unser Leitfaden Maximize gegen Target CPA erklärt, wann welches gewinnt.

Landingpages — Den Variantenarm auf eine andere URL zu schicken, ist einer der saubersten Tests der Plattform, weil die Seitenänderung vollständig von der Anzeige isoliert ist. Eine schnellere Seite, eine straffere Überschrift oder ein kürzeres Formular bewegen die Conversion-Rate oft stärker als jede Gebotsfeinheit. Siehe unseren Leitfaden zur Landingpage-Conversion.

Anzeigentext und RSAs — Eine neue RSA oder einen anderen Asset-Mix zu testen, sagt Ihnen, welche Botschaft die Auktion tatsächlich belohnt. Die Methode zählt hier: Unsere RSA-Schreibmethode zeigt, wie man testenswerte Varianten baut.

Eine Variable nach der anderen — Was Sie auch wählen, ändern Sie genau eine Sache. Bündeln Sie eine neue Gebotsstrategie mit einer neuen Landingpage, und ein gewinnendes Ergebnis sagt Ihnen nichts Wiederverwendbares, weil Sie den Anstieg keiner der beiden Änderungen zuordnen können.

Wie richtet man ein gültiges 50/50-Experiment ein?

Ein gültiges Experiment ist vor allem eine Frage der Disziplin bei der Einrichtung. Treffen Sie Aufteilung, Timing und Isolierung richtig, ist die Auswertung am Ende vertrauenswürdig; treffen Sie sie falsch, rettet keine Analyse das Ergebnis.

Die 50/50-Aufteilung — Beginnen Sie mit einer gleichmäßigen Traffic-Aufteilung, damit beide Arme im selben Tempo Daten sammeln und gemeinsam Signifikanz erreichen. Eine ungleiche Aufteilung — sagen wir 10/90 — schützt das Original, hungert aber die Variante an Daten aus, sodass es weit länger dauert, irgendetwas zu beweisen.

Cookiebasierte Zuweisung — Nutzen Sie eine cookiebasierte statt einer suchbasierten Aufteilung, damit ein wiederkehrender Nutzer immer denselben Arm sieht. Sonst kann dieselbe Person sowohl in der Kontrolle als auch in der Variante landen, was den Vergleich verwischt und das Rauschen aufbläht.

Alles andere gleich — Der Draft muss dem Original bei Budget, Targeting, Zeitplan und Struktur entsprechen. Der einzige erlaubte Unterschied ist Ihre Testvariable. Hat die Variante auch ein höheres Budget oder eine andere Region, messen Sie nicht mehr, was Sie zu messen glauben.

Den Start timen — Starten Sie zu Wochenbeginn und planen Sie, über volle Wochen zu laufen. Mitten in der Woche zu starten, belädt früh einen Arm mit mehr Wochenend-Traffic als den anderen, was der ersten Auswertung vermeidbares Rauschen hinzufügt.

Wie viel Traffic und Zeit brauchen Sie für Signifikanz?

Hier laufen die meisten Experiments schief: Sie werden zu früh gestoppt, auf zu wenig Daten, weil das Dashboard aufregend aussah. Signifikanz ist eine Funktion von Conversions und Effektgröße, nicht davon, wie viele Tage vergangen sind.

Conversions, keine Klicks — Signifikanz wird von den Conversions pro Arm getrieben, nicht von Impressionen oder Klicks. Eine grobe Arbeitsuntergrenze sind 100 Conversions pro Arm; weniger als 30 pro Arm ist fast nie aussagekräftig. Klicks sammeln sich schnell und verleiten zum frühen Lesen, aber die Conversion-Zahl entscheidet den Test tatsächlich.

Die Effektgröße setzt die Kosten — Je kleiner der echte Unterschied, desto mehr Daten brauchen Sie, um ihn zu sehen. Eine Schwankung von 30 Prozent zu erkennen, mag einige Hundert Conversions pro Arm erfordern; eine Schwankung von 5 Prozent zu erkennen, kann Tausende erfordern. Entscheiden Sie vorab, wie groß ein Effekt sein muss, um erkannt zu werden, und dimensionieren Sie den Test dafür.

Die meisten Tests brauchen 2 bis 4 Wochen — In der Praxis bringt das Sammeln genügender Conversions über volle Wochen die meisten Experiments in ein 2-bis-4-Wochen-Fenster. Produziert Ihr Konto nur 20 bis 40 Conversions pro Woche, akzeptieren Sie, dass Sie zuverlässig nur große Effekte erkennen, und entwerfen Sie entsprechend mutige Tests.

Senken Sie die Schwelle nicht für Tempo — Ist das Volumen dünn, verlängern Sie das Fenster, statt früh einen Gewinner auszurufen. Eine schnelle Auswertung auf einer kleinen Stichprobe ist meist eine falsche Auswertung, und danach zu handeln kostet mehr als das Warten.

Wie liest man Ergebnisse, ohne sich selbst zu täuschen?

Der schwerste Teil des Testens ist nicht die Einrichtung — es ist, den Geschichten zu widerstehen, die Ihr eigenes Gehirn über frühe Daten erzählt. Die meisten falschen Gewinner sind selbst verschuldet, erzeugt durch zu frühes Lesen und zu eifriges Stoppen.

Hineinschauen erzeugt falsche Gewinner — Früh hat jeder Arm so wenige Conversions, dass ein Glückstag die Variante 40 Prozent vorn sehen kann. Prüfen Sie täglich und stoppen, sobald es gut aussieht, sperren Sie Rauschen ein, als wäre es Signal. Entscheiden Sie zuerst die Stichprobengröße und ignorieren dann das Dashboard, bis Sie sie erreichen.

Regression zum Mittelwert — Ein Arm, der früh hochschießt, driftet fast immer zum wahren Wert zurück, je mehr Daten sich sammeln. Der dramatische frühe Abstand ist die unzuverlässigste Zahl im ganzen Test, und doch ist es die, die Menschen zum Stoppen verleitet. Warten Sie, bis sich der Abstand stabilisiert.

95 Prozent ist ein Tor, kein Ziel — Behandeln Sie den 95-Prozent-Konfidenzindikator als die Mindesthürde, die zu überschreiten ist, nicht als ein Ziel zum Feiern. Sie zu überschreiten heißt, der Unterschied ist wahrscheinlich echt; sie nicht zu überschreiten heißt, das Ergebnis ist unbewiesen, was nicht dasselbe ist wie ein Unentschieden.

Nach der richtigen Kennzahl beurteilen — Vergleichen Sie Arme nach Kosten pro Conversion und Conversion-Wert, nicht nach Klicks oder CTR. Eine Variante kann beim Engagement gewinnen und trotzdem bei der Geldkennzahl verlieren, die wirklich zählt, also verankern Sie die Entscheidung immer in Ergebnissen.

Wie rollt man ein gewinnendes Experiment aus oder zurück?

Ein sauberes Ergebnis ist nur nützlich, wenn Sie es sauber anwenden. Der Ausroll-Schritt ist, wo Teams still Rauschen wieder einführen, entweder durch zu schnelles Zurücksetzen oder durch das Zurücksetzen des Lernens, das sie gerade bezahlt haben.

Anwenden, nicht neu bauen — Wenn die Variante gewinnt, wenden Sie das Experiment an, um die ursprüngliche Kampagne zu aktualisieren, statt sie von Grund auf neu zu erstellen. Anwenden bewahrt Historie und Signal, wo möglich; Neubau wirft das Lernen weg und erzwingt eine frische, teure Anlaufphase.

Erwarten Sie einen kurzen Wieder-Lern-Einbruch — Eine Änderung anzuwenden, besonders eine Gebotsänderung, kann eine kurze Lernphase auslösen, während der Algorithmus sich neu stabilisiert. Planen Sie ein paar ruhige Tage ein, bevor sich der Sieg voll in den eingeschwungenen Zahlen zeigt, und bearbeiten Sie nicht panisch währenddessen.

Bei einer Niederlage sauber verwerfen — Verliert oder gleicht die Variante aus, beenden Sie das Experiment und lassen die Kontrolle unberührt. Ein Unentschieden ist ein echtes Ergebnis: Es sagt Ihnen, dass die Änderung nicht half, was Sie davor bewahrt, eine Nicht-Verbesserung auf Ihr ganzes Konto auszurollen.

Dokumentieren Sie jedes Ergebnis — Halten Sie fest, was Sie getestet haben, die Stichprobengröße und das Ergebnis, gewonnen oder verloren. Das hindert Ihr Team daran, in drei Monaten denselben nicht aussagekräftigen Test erneut zu fahren, und baut eine Bibliothek dessen auf, worauf Ihr Konto tatsächlich reagiert. Um rohe Ratenunterschiede vor der Festlegung in erwartete Umsatzwirkung umzurechnen, nutzen Sie unser kostenloses 5-Achsen-Audit zusammen mit dem Conversion-Rate-Rechner.

Die Entscheidungstabelle zum Experiment-Design

Nutzen Sie diese Tabelle, um den richtigen Test, die richtige Aufteilung und die richtige Auswertung für die Situation vor Ihnen zu wählen. Sie ist grob von Einrichtungsentscheidungen bis zur Disziplin beim Lesen der Ergebnisse geordnet.

Stoppen Sie ein Experiment nicht am ersten Tag, an dem es wie ein Gewinner aussieht :

Früh in einem Test hat jeder Arm nur eine Handvoll Conversions, also kann ein einziger Glückstag die Variante 30 bis 40 Prozent vorn sehen, bevor die Regression zum Mittelwert sie zurückzieht. Dort zu stoppen sperrt Rauschen ein, als wäre es ein Ergebnis, und shippt eine Änderung, die nicht wirklich hilft. Entscheiden Sie Ihre Stichprobengröße und Mindestdauer vor dem Start und ignorieren dann das Dashboard, bis Sie sie erreichen. Ein Ergebnis, das die 95-Prozent-Konfidenz nicht überschritten hat, ist unbewiesen, kein Sieg.

Wie man alles zusammensetzt

Die Disziplin des Testens summiert sich: Jedes saubere Experiment macht die nächste Entscheidung billiger und sicherer. Die Konten, die sich am schnellsten verbessern, sind nicht die, die am meisten ändern, sondern die, die am meisten beweisen.

Testen Sie die großen Hebel — Geben Sie Ihren begrenzten Traffic für Gebots- und Landingpage-Experiments aus, wo der Hebel echt ist, und überspringen Sie die kosmetischen Feinheiten, die den CPA ohnehin nicht genug bewegen können, um Signifikanz zu erreichen. Mutige Tests auf dünnem Volumen schlagen subtile Tests, die Sie nie beweisen können.

Schützen Sie die Auswertung — Dimensionieren Sie die Stichprobe vor dem Start, laufen Sie über volle Wochen, lassen Sie Smart Bidding die Lernphase verlassen und halten Sie die 95-Prozent-Hürde, selbst wenn ein früher Abstand Sie verleitet. Der ganze Wert eines Experiments wird in dem Moment zerstört, in dem Sie hineinschauen und früh stoppen.

Bauen Sie eine Gewohnheit auf — Dokumentieren Sie jeden Test, gewonnen oder verloren, damit Ihr Konto eine Bibliothek bewiesener Änderungen sammelt statt einen Haufen unbewiesener Ahnungen. Über ein Jahr lernt ein Team, das alle zwei Wochen ein sauberes Experiment fährt, mehr als eines, das zehn blinde Bearbeitungen pro Woche shippt.

Um die Tests mit dem größten Hebel in Ihrem eigenen Konto zu finden, bevor Sie eine Woche damit verbringen, sie zu beweisen, starten Sie das kostenlose 5-Achsen-Audit von SteerAds und dimensionieren dann die erwartete Wirkung jeder Ratenänderung mit unserem Conversion-Rate-Rechner.

Sources

Offizielle Quellen, die für diesen Leitfaden konsultiert wurden:

FAQ

Wie funktionieren Google-Ads-Experiments wirklich?

Ein Experiment teilt den Traffic einer einzelnen Kampagne in zwei Arme, die gleichzeitig laufen. Sie erstellen zuerst einen Draft, eine Sandbox-Kopie der ursprünglichen Kampagne, in der Sie eine Änderung vornehmen, und befördern diesen Draft dann zu einem Experiment mit einer Traffic-Aufteilung, meist 50/50. Ab da weist Google jede infrage kommende Auktion zufällig der Kontrolle oder der Variante zu, sodass beide Arme dieselbe Saisonalität, Konkurrenz und Zielgruppe erleben. Weil die beiden Arme gleichzeitig statt nacheinander laufen, isolieren Sie den Effekt Ihrer Änderung vom zeitbedingten Rauschen. Das Dashboard zeigt dann die Kennzahlen jedes Arms nebeneinander mit Konfidenzindikatoren.

Wie lange sollte ein Google-Ads-Experiment laufen?

Lassen Sie es laufen, bis Sie statistische Signifikanz erreichen, nicht bis zu einem festen Datum, und stoppen Sie nie am ersten gut aussehenden Tag. In der Praxis brauchen die meisten Experiments 2 bis 4 Wochen, weil Sie genug Conversions pro Arm benötigen, nicht nur genug Klicks. Eine grobe Untergrenze sind rund 100 Conversions pro Arm, bevor Sie einem Ergebnis trauen, und weniger als 30 pro Arm ist fast nie aussagekräftig. Lassen Sie es immer über volle Wochen laufen, damit beide Arme dieselben Wochentags- und Wochenendmuster sehen. Ist das Volumen sehr gering, verlängern Sie das Fenster, statt Ihre Schwelle zu senken, denn eine schnelle Auswertung auf dünnen Daten ist meist eine falsche Auswertung.

Was kann ich in Google Ads tatsächlich per A/B testen?

Die saubersten Tests ändern genau eine Variable, damit das Ergebnis interpretierbar ist. Die vier wertvollsten Tests sind die Gebotsstrategie, etwa Maximize Conversions gegen Target CPA; die Landingpage, indem der Variantenarm auf eine andere URL geht; Anzeigentext und RSA-Assets; und Zielgruppen- oder Targeting-Änderungen. Gebots- und Landingpage-Tests bewegen den CPA meist am stärksten, weshalb sie das Warten wert sind. Vermeiden Sie es, mehrere Änderungen in ein Experiment zu bündeln — ändern Sie Gebotsstrategie und Landingpage zusammen und der CPA verbessert sich, können Sie nicht sagen, welche es war, und lernen nichts Wiederverwendbares.

Wie viele Conversions brauche ich für ein gültiges Ergebnis?

Es hängt von der Größe des Effekts ab, den Sie erkennen wollen, aber eine praktische Regel sind mindestens 100 Conversions pro Arm für einen moderaten Effekt und weit mehr, um einen kleinen zu erfassen. Eine Änderung von 5 Prozent zuverlässig zu erkennen, kann Tausende Conversions pro Arm erfordern, während eine Änderung von 30 Prozent mit einigen Hundert sichtbar wird. Je kleiner der echte Unterschied, desto mehr Daten brauchen Sie, um ihn vom Zufallsrauschen zu trennen. Produziert Ihr Konto insgesamt nur 20 bis 40 Conversions pro Woche, akzeptieren Sie, dass Sie nur große Effekte erkennen, und entwerfen Sie mutige Tests statt subtiler Feinheiten.

Warum zeigen Experiments früh oft einen falschen Gewinner?

Früh in einem Experiment hat jeder Arm sehr wenige Conversions, daher schwanken die Zahlen durch Zufallsvariation heftig — ein Glückstag kann die Variante 40 Prozent vorn sehen, bevor die Regression zum Mittelwert sie zurückzieht. Deshalb erzeugt tägliches Hineinschauen und Stoppen, sobald ein Arm gut aussieht, so oft falsche Gewinner. Die Lösung ist, Stichprobengröße und Dauer vor dem Start festzulegen und dann das Dashboard zu ignorieren, bis Sie sie erreichen. Behandeln Sie den 95-Prozent-Konfidenzindikator als Mindesttor, nicht als Ziellinie, und denken Sie daran: Ein nicht signifikantes Ergebnis ist kein Unentschieden — es ist einfach unbewiesen.

Experiment gegen direktes Ändern der Kampagne — was ist besser?

Ein Experiment ist ein kontrollierter Vergleich; eine direkte Änderung ist eine blinde Wette. Bearbeiten Sie einfach die Live-Kampagne und der CPA verbessert sich in der Folgewoche, können Sie nicht beweisen, dass die Bearbeitung es verursacht hat, denn Wetter, Konkurrenz, Saisonalität und Ihre anderen Änderungen bewegten sich alle zugleich. Das Experiment hält das konstant, indem es beide Versionen gleichzeitig laufen lässt. Der Haken ist, dass Experiments Ihr Volumen aufteilen, also bekommt jeder Arm die Hälfte der Daten und Signifikanz dauert länger. Nutzen Sie Experiments für jede Änderung, die groß genug ist, um zu zählen, und umkehrbar genug, um sie zu testen — und shippen Sie winzige, offensichtlich korrekte Fixes direkt.

Kann ich ein Google-Ads-Experiment auf Smart Bidding fahren?

Ja, und Gebots-Experiments gehören zu den wertvollsten, weil die Gebotsstrategie einen so großen Teil Ihres CPA treibt. Sie können zwei Strategien vergleichen — zum Beispiel Maximize Conversions gegen Target CPA — oder dieselbe Strategie mit zwei verschiedenen Zielwerten. Die einzige Vorsicht gilt der Lernphase: Jeder Arm braucht Zeit, um die Lernphase zu verlassen, bevor seine Zahlen etwas bedeuten, also rechnen Sie rund ein bis zwei Wochen zu Ihrem normalen Signifikanzfenster hinzu. Beurteilen Sie ein Gebots-Experiment nicht, solange ein Arm noch lernt, und vermeiden Sie große Änderungen mitten im Lauf, die dieses Lernen zurücksetzen und den Vergleich verfälschen.

💡

Get our best tips to cut your CPA

Each week, an actionable tip to optimize your Google & Bing Ads campaigns. Joined by 1,200+ advertisers.

No spam. One-click unsubscribe. Privacy policy.

Ready to optimize your campaigns?

Start a free audit in 2 minutes and discover the ROI potential of your accounts.

Start my free audit

Free audit — no credit card required

Keep reading