In den 14-21-Tage-A/B-Tests, die wir 2026 kontinuierlich auf begleiteten Konten laufen lassen, liefert eine gut geprompete KI-generierte RSA eine CTR 5 bis 8 % höher als eine reine Mensch-RSA — aber mit einer Conversion-Rate 0 bis 3 % niedriger auf Nischen-B2B- und Premium-Brand-Anzeigengruppen. CPA gleichwertig +/- 5 %. Der echte Gewinn liegt nicht in reiner Performance, sondern in der Produktionszeit: 45 Min gut geprompete KI vs. 2-3 h reiner Mensch pro vollständiger RSA. ChatGPT ist bei Google Ads RSAs nicht magisch — es ist ein Produktionsbeschleuniger auf standardisierten Anzeigengruppen und eine Falle, wenn ohne Prozess auf strategischen Anzeigengruppen deployt.
Dieser Artikel führt durch den vollständigen Workflow 2026: Prompt-Template pro Intent (4 Varianten), Matrix-Quality-Scoring, sauberes Ad-Rotation-Deployment trotz Googles seit 2024 erzwungenem optimize-Constraint, 14-21-Tage-Holdout-A/B-Test in isolierten Anzeigengruppen, Inkrementalitätsmessung KI vs. Mensch. Kein Hype — ein strukturierter Prozess, der 75-88 % verwendbaren Output liefert statt 40-55 % bei einem naiven Prompt. Für reine RSA-Mechanik (7-Themen-Matrix, Pinning, Ad Strength) siehe unsere RSA-Schreibmethode. Für die KI-Google-Ads-Säule unseren Artikel zu 30 JSON Google Ads Prompts. Unser kostenloser CTR-Rechner vergleicht Ihre Click-Through-Rate mit US-2026-Medianen nach Branche.
RSA + KI: warum es 2026 ein menschlicher Prozess bleibt
Die RSA-Generierung durch KI ist 2026 technisch trivial — ein Frontier-Modell produziert 15 Headlines und 4 Beschreibungen in unter 10 Sekunden — aber das Performance-Differential spielt sich auf dem strukturierten Brief, dem Quality Scoring und dem In-Account-Testing ab, nicht auf der Generierungs-Engine. Auf den aggregierten Google-Ads-Daten 2025-2026 liefert ein gut geprompteter KI-augmentierter Workflow 75 bis 88 % verwendbaren Output vs. 40 bis 55 % für einen naiven Prompt, mit halbierter Produktionszeit bei äquivalenter RSA. Das untenstehende Diagramm fasst die vier Schritte des KI-augmentierten RSA → A/B-Test-Workflows zusammen.
Die RSA-Generierung via KI ist 2026 technisch trivial — jedes Frontier-Modell (GPT-5, Claude Opus 4.7, Gemini 2.5 Pro) produziert 15 Headlines und 4 Beschreibungen in unter 10 Sekunden. Die Schwierigkeit liegt nicht in der Generierung, sondern in Qualität, Scoring und In-Account-Testing. Der Werbetexter 2026 verschwindet nicht — seine Rolle ändert sich: die KI-Engine mit einem strukturierten Brief füttern, Outputs validieren, Message-Market-Matching kalibrieren, Inkrementalität messen.
Drei anhaltende Illusionen über KI-RSAs:
- "KI schreibt besser als ein Mensch" — im Durchschnitt falsch. In seriösen A/B-Tests liefert KI = +5-8 % CTR, aber -0-3 % Conversion-Rate. Net Business oft neutral oder leicht positiv.
- "Je mehr Varianten generiert, desto besser" — falsch. Über 30 Outputs sättigt die Diversität und Human Review wird zum Bottleneck.
- "GPT-5 ist strikt überlegen" — 2026 falsch. Claude Opus 4.7 übertrifft GPT-5 oft auf B2B-RSAs (Prosa-Kohärenz, Stakeholder-bewusster Ton), GPT-5 ist kreativer auf Mass-Market-Consumer-Winkeln, Gemini 2.5 Pro brilliert in Kontexten, die Real-Time-Web-Grounding benötigen.
Was KI gut macht (im Konto 2025-2026 validiert):
- Schnelle Produktion von 30+ Varianten für Matrix (Zeitgewinn -65 %).
- Strikte Einhaltung von Zeichenanzahl-Constraints (94-99 % in strukturiertem JSON).
- Multi-Account-Brand-Voice-Konsistenz (Agentur-Industrialisierung).
- Mehrsprachige Generierung aus einer kanonischen EN (lokale Konsistenz).
- Vorschläge für Differenzierungswinkel, die Menschen nicht gesehen haben.
Was KI schlecht macht (und wofür Menschen erforderlich sind):
- Den spezifischen Message-Market-Match auf Nischen-B2B kalibrieren.
- Riskante Winkel erkennen (legal, brand safety, off-brand tone).
- Emotionale Resonanz vs. einfache formale Compliance bewerten.
- Implizite Branchen-Codes verstehen (Luxus, Health, Finance, Religion).
- Mobile-vs-Desktop-Lese-Ambiguitäten antizipieren.
Auf reifen Workflows beobachtetes Produktionsverhältnis:
Offizielle Google-Referenz zu RSAs: die RSA Best Practices Dokumentation auf support.google.com und der Ad-Rotation-Policy-Artikel zu Ad Rotation. Googles Empfehlungen konvergieren mit unserer taktischen Methode: 15 Headlines, 7 Themen, 1 Pin maximum.
Das Prompt-Template (4 Versionen pro Intent)
Der gleiche RSA-Prompt funktioniert nicht für jede Anzeigengruppe. Die 4 häufigsten Intents — Long-Tail, Brand Defense, Comparative, Lead Gen — verlangen 4 verschiedene Templates. Die JSON-Struktur bleibt ähnlich; der Constraint-Inhalt variiert nach Intent.
Template 1 — Long-Tail RSA (spezifisches Anfragenvolumen):
{
"role": "You are a Google Ads RSA copywriter, native English, long-tail expert.",
"intent": "long_tail",
"context": {
"vertical": "[To fill]",
"icp": "[Precise persona]",
"long_tail_keywords_top_10": "[Paste top 10 SQR queries]",
"differentiators": ["[List 3-5 differentiators]"]
},
"task": "Generate 30 headlines (2x the 15 finals) and 8 descriptions (2x the 4 finals).",
"constraints": {
"headline_max_chars": 30,
"description_max_chars": 90,
"theme_distribution_target": {
"main_keyword": 6,
"long_tail_variation": 6,
"quantified_benefit": 4,
"proof_point": 4,
"direct_cta": 4,
"differentiation": 4,
"brand_only": 2
},
"include_long_tail_modifier_in_8_headlines": true,
"no_repetition_keyword_exact": true,
"no_external_benchmarks": true,
"no_emojis": true,
"no_caps_lock": true
},
"output_format": "JSON array: headline, theme, char_count, long_tail_modifier_used"
}
Template 2 — Brand Defense RSA (Wettbewerber, der auf Ihrer Marke bietet):
{
"role": "Brand defense PPC copywriter.",
"intent": "brand_defense",
"context": {
"brand_name": "[Your brand]",
"competitor_attacking": "[Competitor name]",
"differentiators_vs_competitor": ["[3-5 specific strengths vs this competitor]"],
"brand_proof_points": ["[2-3 proof points like rating, years, clients]"]
},
"task": "Generate defense RSA for brand exact-match ad group.",
"constraints": {
"include_brand_in_minimum_5_headlines": true,
"tone": "confident without aggressive, no direct bashing",
"implicit_comparison": true,
"no_competitor_name_mention": true,
"headline_max_chars": 30,
"include_proof_points_credibility": "minimum 3 headlines"
},
"output_format": "JSON array: headline, theme, brand_present, char_count"
}
Template 3 — Comparative RSA (vs. direkter Wettbewerber):
{
"role": "Comparative PPC copywriter (legal-aware).",
"intent": "comparative",
"context": {
"your_solution": "[Your product]",
"competitor_to_compare": "[Compared competitor]",
"comparison_axes": ["price", "features", "support", "integrations"],
"concrete_advantages": ["[Real quantified advantages]"]
},
"task": "Generate comparative RSA for 'vs Competitor' ad group capturing queries like [your brand vs competitor].",
"constraints": {
"headline_max_chars": 30,
"tone": "factual evidence-based, no gratuitous superlatives",
"no_misleading_claims": true,
"include_minimum_3_concrete_numbers": true,
"comparative_advantage_per_axis": "1 headline minimum per axis"
},
"output_format": "JSON array: headline, comparison_axis, evidence_level, char_count"
}
Template 4 — Lead Gen RSA (Qualifizierung + Objection Handling):
{
"role": "Lead gen copywriter, qualification focus.",
"intent": "lead_gen",
"context": {
"service_offered": "[Your service]",
"icp_target": "[Precise persona]",
"icp_anti_target": "[Who you do NOT want to attract]",
"common_objections": ["[3-5 typical objections]"],
"qualification_criteria": ["[Lead qualification criteria]"]
},
"task": "Generate RSA for lead gen ad group with qualification objective, not volume.",
"constraints": {
"headline_max_chars": 30,
"include_qualifying_signals_minimum_3_headlines": true,
"include_objection_handling_minimum_2_descriptions": true,
"tone": "professional, no artificial urgency",
"no_clickbait": true,
"exclude_terms_attracting_unqualified": "[Terms to exclude like 'free', 'no commitment' if you want paid intent]"
},
"output_format": "JSON array: headline, qualifying_signal, objection_handled, char_count"
}
Diese 4 Templates decken ~80 % der typischen Konto-RSA-Use-Cases ab. Für Sonderfälle (saisonal, mehrsprachig, regulierter Sektor) abgeleitete Templates erstellen, indem spezifische Constraints hinzugefügt werden, ohne die globale JSON-Struktur zu ändern.
Quality Scoring: Kriterien und Schwellenwerte
Quality Scoring ist der Schritt, der reife KI-Workflows von Amateur-Workflows trennt. Ohne Scoring nehmen Sie die ersten 15 generierten Headlines — Outputs oft technisch gültig, aber qualitativ mittelmäßig. Matrix-Scoring filtert Outputs vor dem Human Review und reduziert die Review-Zeit um 60-70 %.
6 Scoring-Kriterien (3 algorithmisch + 3 menschlich):
{
"scoring_rubric": {
"char_count_compliance": {
"type": "algorithmic",
"rule": "headline <= 30 chars AND description <= 90 chars",
"weight": 1,
"binary": true
},
"theme_tag_valid": {
"type": "algorithmic",
"rule": "theme tag in [keyword, benefit, proof, cta, offer, differentiation, brand]",
"weight": 1,
"binary": true
},
"no_excluded_terms": {
"type": "algorithmic",
"rule": "no term from excluded_terms list present",
"weight": 1,
"binary": true
},
"no_keyword_repetition_exact": {
"type": "algorithmic",
"rule": "keyword exact appears max 3 times across 30 headlines",
"weight": 1,
"binary": true
},
"brand_voice_match": {
"type": "human",
"rule": "tone aligns with brand guidelines",
"weight": 1,
"binary": false,
"scale": "0-3"
},
"proof_credibility": {
"type": "human",
"rule": "proof points are credible and verifiable",
"weight": 1,
"binary": false,
"scale": "0-3"
}
},
"filter_threshold": "score_total >= 5/6 (algorithmic) + brand_voice >= 2 + proof_credibility >= 2"
}
Scoring-Workflow in der Praxis:
# Pseudo-code AI RSA scoring pipeline
def score_rsa_outputs(outputs, scoring_rubric, brand_voice_guidelines):
scored = []
for output in outputs:
score = {
"char_count_compliance": check_chars(output),
"theme_tag_valid": check_theme(output),
"no_excluded_terms": check_excluded(output, excluded_list),
"no_keyword_repetition": check_repetition(outputs, output),
}
# Algorithmic score 0-4
algo_score = sum(score.values())
if algo_score < 4:
scored.append({"output": output, "passed": False, "reason": "algorithmic"})
continue
# Human review queue
scored.append({
"output": output,
"passed": "pending_human_review",
"algorithmic_score": algo_score,
"human_criteria_to_review": ["brand_voice", "proof_credibility"]
})
return scored
Auf 200 gescorten RSAs beobachtete Schwellenwerte (aggregierte Google-Ads-Benchmarks):
- 30 KI-Outputs generiert (2× Ziele), algorithmische Filterung: ~25 bestehen (83 %).
- 25 Outputs in Human Review: ~18 bestehen brand_voice + proof_credibility (72 % der verbleibenden).
- 18 validierte Outputs, finale Auswahl von 15 pro 7-Themen-Matrix: 15 behalten, 3 wegen thematischer Redundanz abgelehnt.
- Finales Output-Verhältnis: 15/30 = 50 % der KI-Generationen landen in Produktions-RSAs. Normal, gesund.
Seit dem Late-2024-Rollout hat Google die Ad Rotation 'optimize' (Optimierung für Klicks dann Conversions) auf der Mehrheit der Search-Kampagnen erzwungen. 'Rotate evenly' ist nur auf spezifischen Legacy-Kampagnen zugänglich. Das verändert die RSA-A/B-Test-Methode: Sie können nicht mehr manuell 50/50 zwischen 2 RSAs in derselben Anzeigengruppe ausspielen. Die saubere 2026-Methode = 2 isolierte Anzeigengruppen erstellen (eine nur KI, eine nur Mensch), gleiches Budget, gleiche Keywords, gleiche Landing Page. Die Anzeigengruppe wird zur A/B-Test-Einheit, nicht die RSA. Erhöhte methodische Rigorosität, aber besser interpretierbare Ergebnisse. Offizielle Dokumentation auf support.google.com/google-ads/answer/2404190.
Saubere Ad Rotation: optimize vs. rotate evenly
Ad Rotation ist der Parameter, der bestimmt, wie Google die RSAs einer Anzeigengruppe ausspielt. Vor Ende 2024 waren beide Optionen voll verfügbar: optimize (Google spielt vorzugsweise die performantesten RSAs aus) und rotate evenly (Google spielt RSAs in ausgewogenem Wechsel über 90 Tage aus). Seit Ende 2024 hat Google rotate evenly auf der Mehrheit der Konten ausgemustert — nur einige Legacy- oder Edge-Case-Altkampagnen behalten es.
Was das für KI-vs-Mensch-RSA-A/B-Tests verändert:
- Vor 2024 — Sie konnten 2 RSAs in derselben Anzeigengruppe platzieren, rotate evenly, und über 90 Tage Apples-zu-Apples vergleichen.
- Seit Ende 2024 — Google erzwingt optimize, also ist es unmöglich, 2 RSAs zu testen, die 50/50 in derselben Anzeigengruppe ausgespielt werden. Die RSA, die in der ersten Woche "gewinnt", erhält danach 80 %+ der Auslieferung.
- Saubere 2026-Methode — 2 isolierte Anzeigengruppen erstellen:
AI_onlyundHuman_only, gleiche Keywords, gleiches Budget, gleiche Landing, gleiche Match Types. Die Anzeigengruppe wird zur A/B-Test-Einheit.
Setup isolierter A/B-Anzeigengruppen (Verfahren):
# Pseudo-code Google Ads API A/B ad groups setup
def create_ab_test_ad_groups(campaign_id, keywords, landing_url, budget_per_ad_group):
# Ad group A: AI-only
ad_group_a = create_ad_group(
name="RSA_AI_test_a",
campaign_id=campaign_id,
max_cpc_default=None # Inherit from Smart Bidding
)
add_keywords(ad_group_a.id, keywords)
add_rsa(ad_group_a.id, headlines=ai_generated_15, descriptions=ai_generated_4)
# Ad group B: Human-only
ad_group_b = create_ad_group(
name="RSA_human_test_b",
campaign_id=campaign_id,
max_cpc_default=None
)
add_keywords(ad_group_b.id, keywords)
add_rsa(ad_group_b.id, headlines=human_written_15, descriptions=human_written_4)
# Optionally adjust ad rotation (limited 2026)
set_ad_rotation_optimize(ad_group_a.id)
set_ad_rotation_optimize(ad_group_b.id)
return {"ai_group": ad_group_a, "human_group": ad_group_b}
Kritische Vorsichtsmaßnahmen für Test-Rigor:
- Gleiche exakt passende Keywords. Keine Broad-Match-Variation auf einer Seite und Phrase-Match auf der anderen — sofortige Verzerrung.
- Gleiches geteiltes Budget oder identische Per-Anzeigengruppen-Budgets. Keine asymmetrische Smart-Bidding-Lernphase.
- Gleiche Landing-Page-URL auf allen RSAs. Eine andere Seite testen = eine weitere Confounding-Variable.
- Keine Modifikation während des 14-21-Tage-Tests. Keine hinzugefügten Headlines, keine angepassten Keywords, kein geändertes Budget.
- Identisches Geo-Targeting zwischen den 2 Anzeigengruppen. Sonst Markt-Bias.
- Kein unterschiedliches Audience-Signal zwischen den 2 Anzeigengruppen.
Confounding-Variablen, die den Test ruinieren:
- Unterschiedliche Device-Bid-Adjustments (Mobile vs. Desktop) zwischen Anzeigengruppen.
- Unterschiedliches Scheduling (aktive Tage / Stunden).
- Unterschiedliches Network-Targeting (Search Partners on/off).
- Unterschiedliche Extensions (unterschiedliche Sitelinks, Callouts).
All diese Variablen müssen zwischen den 2 Anzeigengruppen strikt identisch sein. Sonst testen Sie "KI-RSA + Bid +20 % Mobile" vs. "Mensch-RSA + Bid 0 % Mobile", was nichts über die RSA-Qualität selbst aussagt.
14-tägiger A/B-Test: Holdout-Split-Methodik
Der saubere A/B-Test dauert mindestens 14 Tage, idealerweise 21 Tage, mit mindestens 5.000 Impressionen pro Anzeigengruppe. Darunter übersteigt die Tag-zu-Tag-Varianz die KI-vs-Mensch-RSA-Lücke und Sie schneiden auf Rauschen. Die Holdout-Split-Methodik wendet die gleichen Prinzipien an wie Inkrementalitäts-Holdout-Tests (vgl. unsere Discovery Ads Incremental Guide) — angewendet auf der Anzeigengruppen-RSA-Skala.
Stoppkriterien und Ergebnislesart:
{
"test_completion_criteria": {
"min_duration_days": 14,
"min_impressions_per_ad_group": 5000,
"min_clicks_per_ad_group": 200,
"min_conversions_per_ad_group": 10
},
"decision_rules": {
"ctr_significant_improvement": "+8% relative AND p_value < 0.05",
"conv_rate_no_significant_loss": "loss < 5% relative",
"cpa_no_significant_loss": "loss < 8% relative"
},
"winner_definition": {
"ai_wins_if": "ctr_significant_improvement AND no_significant_loss",
"human_wins_if": "ai_does_not_meet_criteria OR conv_rate_loss > 8%",
"tie_if": "no clear winner — choose by production time"
}
}
Beispiellesart auf einer Mode-E-Com-Anzeigengruppe (aggregierte Google-Ads-Benchmarks Q1 2026):
Fälle, in denen Menschen gewinnen (Google-Ads-Daten, Nischen-B2B-Anzeigengruppen):
- KI-Conv-Rate oft -8 bis -15 % in Nischen-B2B (komplexes Message-Market-Matching).
- Off-Tone-Brand-Voice im Human Review erkannt (KI tendiert dazu, distinktive Winkel zu glätten).
- KI-CTR vergleichbar oder unter Mensch auf Anzeigengruppen, in denen Spezifität Hook schlägt.
- Praktische Schlussfolgerung: Auf Nischen-B2B-, Premium-Brand-, Top-Revenue-Anzeigengruppen Menschen priorisieren.
Industrialisierungs-Entscheidungsmatrix:
- Wenn KI bei CTR gewinnt UND keine Conv-Rate-Verluste UND Produktionszeit -50 %+: KI auf ähnlichen Anzeigengruppen industrialisieren (gleiche Branche, gleicher Intent).
- Wenn KI gleichwertig zu Mensch UND Produktionszeit -50 %+: KI für Produktivitätsgewinn industrialisieren.
- Wenn KI bei Conv-Rate verliert (über 5 %): Mensch auf diesen Anzeigengruppen behalten.
- Wenn unentschieden: KI auf standardisierten Anzeigengruppen wählen, Mensch auf strategischen Anzeigengruppen.
Inkrementalität KI vs. Mensch messen
KI-vs-Mensch-Inkrementalität unterscheidet sich von Kampagne-vs-Holdout-Inkrementalität. Hier messen wir nicht, ob die Anzeige existiert oder nicht, sondern ob die KI-Version einen Net-Gewinn gegenüber der Mensch-Version liefert — über 3 Dimensionen: reine Performance (CTR / Conv-Rate), Produktionszeit, Brand-Voice-Qualität.
Die Messung erfolgt auf 3 Ebenen:
- Reine Performance — 14-21-Tage isolierter Anzeigengruppen-A/B-Test (vgl. Abschnitt 5). Es ist die sichtbarste Messung, aber oft die am wenigsten differenzierende.
- Produktionszeit — striktes Timing der Schritte: Brief, Generierung, Scoring, Auswahl, Kalibrierung. Verglichen über 10 RSAs pro Methode produziert.
- Brand-Voice-Qualität — qualitatives Blind Review durch 3 menschliche Reviewer, die nicht wissen, wer geschrieben hat (KI oder Mensch). Score 0-5 zur Marken-Konsistenz.
Typische Ergebnisse aus aggregierten Google-Ads-Daten 2025-2026 (n=78 blind getestete RSAs):
Geschäftliche Lesart der Ergebnisse:
Gut geprompete KI ist weder strikt überlegen noch strikt unterlegen gegenüber Menschen — sie verschiebt die Produktionsgrenze. Bei gleichwertiger Performance (-/+5 % pro Metrik) befreit sie 50-60 % der Produktionszeit. Diese gewonnene Zeit kann auf Strategie umgeleitet werden (welche strategischen Anzeigengruppen reinen Menschen verdienen), Tracking (Enhanced Conversions, Offline) oder Scaling (mehr thematische Anzeigengruppen).
Die echte Frage 2026 ist nicht "KI vs. Mensch", sondern "wo das menschliche Zeitbudget allokieren":
- Standardisierte Anzeigengruppen (Mass-Market-E-Com, Volume-Lead-Gen) → gut geprompete KI per Default.
- Strategische Anzeigengruppen (Premium-Brand, Nischen-B2B, Top Revenue) → reiner Mensch.
- Mehrsprachige Anzeigengruppen (Cross-Country-Industrialisierung) → gut geprompete KI + lokales Human Review.
- Schnelle saisonale Anzeigengruppen (wöchentlicher Refresh) → gut geprompete KI für Geschwindigkeit.
- Anzeigengruppen für neue Produkt-Launches → reiner Mensch, KI als Support.
Naive ChatGPT-RSAs (ohne strukturierten Prompt, ohne Scoring, ohne A/B) sind nie eine empfohlene Option. Sie liegen im Durchschnitt -5 bis -12 % Conversion-Rate vs. Mensch-Baseline, mit einer Brand-Voice-Qualität von 2,1/5 und hohem Stat-Halluzinations-Risiko. Der scheinbare Zeitgewinn wird durch Performance-Verluste und Reputationsrisiko ausgeglichen.
Häufige Fehler (Over-Fitting auf den Prompt)
Bei den 2025-2026 referenzierten KI-RSA-Workflows hier die 6 wiederkehrenden Fehler — jeder reduziert den realen KI-ROI und erklärt, warum viele Werbetreibende fälschlicherweise zu dem Schluss kommen, dass "KI bei Google Ads nicht funktioniert". Oft funktioniert nicht KI nicht — es ist der Workflow.
Fehler 1 — Naive Prompts ohne strukturierte Constraints. "Schreib mir 15 RSA-Headlines für meine Firma" ohne Kontext, ohne Theme Distribution, ohne character_max, ohne excluded_terms zu fragen, produziert 40-55 % verwendbaren Output. Mit einem strukturierten JSON-Prompt klettern Sie auf 75-88 %. Der Gewinn liegt nicht im Modell, sondern in der Präzision der Constraints.
Fehler 2 — Kein Quality Scoring vor Human Review. Die ersten 15 generierten Headlines ohne algorithmische Filterung zu nehmen, verschwendet 60-70 % der Human-Review-Zeit auf Outputs, die nicht einmal die Zeichenanzahl- oder Theme-Distribution-Constraints erfüllen. Immer algorithmisch vor Human Review filtern.
Fehler 3 — Over-Fitting auf den initialen Prompt. Den Prompt 15 Mal zu iterieren, um den Output auf einer spezifischen Anzeigengruppe zu "perfektionieren", produziert einen nicht wiederverwendbaren Prompt. Der richtige Workflow: 80 % wiederverwendbares generisches Prompt-Template + 20 % Kontext-Anpassung. Wenn Sie mehr als 3 Mal auf dem Prompt für 1 Anzeigengruppe iterieren, braucht das Prompt-Template Anreicherung, keine Über-Optimierung für einen Einzelfall.
Fehler 4 — 2 RSAs in derselben Anzeigengruppe testen unter Googles seit 2024 erzwungenem optimize. Seit Ende 2024 erzwingt Google Ad Rotation optimize, also spielen sich 2 RSAs in derselben Anzeigengruppe nicht 50/50 aus — die erste, die in den ersten 7 Tagen performt, fängt 80 %+ der Auslieferung ab. Jede Intra-Anzeigengruppen-A/B-Schlussfolgerung ist verzerrt. Saubere Methode = 2 isolierte Anzeigengruppen, gleiche Keywords.
Fehler 5 — Den Test unter 14 Tagen und 5.000 Impressionen schneiden. Tag-zu-Tag-Varianz übersteigt oft die KI-vs-Mensch-RSA-Lücke. Zu früh schneiden = Entscheidung auf Rauschen. Strikte Regel: 14 Tage Minimum, 5.000 Impressionen Minimum pro Anzeigengruppe, idealerweise 21 Tage und 10.000 Impressionen, um 3 vollständige Wochenzyklen zu absorbieren.
Fehler 6 — KI auf jeder Anzeigengruppe ohne Unterscheidung industrialisieren. KI ist ein Produktionsbeschleuniger auf standardisierten Anzeigengruppen (Mass-Market-E-Com, Volume-Lead-Gen), aber sie verschlechtert strategische Anzeigengruppen (Premium-Brand, Nischen-B2B, Top Revenue), in denen komplexes Message-Market-Matching dominiert. Alles auf KI zu industrialisieren ist genauso naiv, wie alles auf Mensch zu industrialisieren — die Sophistication 2026 liegt in der Allokation menschlicher Zeit nach Anzeigengruppen-Kritikalität.
Auf den Konten, die wir 2026 in Cruise Mode überwachen, tendiert die optimale Aufteilung zu: ~60-70 % der Anzeigengruppen in gut geprompete KI (schnelle Produktion, gleichwertige Performance), ~25-35 % in reinem Menschen auf strategischen Anzeigengruppen, ~5-10 % in KI + intensivem Human Review auf mehrsprachigen Anzeigengruppen. Dieses Verhältnis entwickelt sich mit der KI-Reife des Teams: bei 30 % KI / 70 % Mensch während 60 Lerntagen starten, schrittweise auf 60-70 % KI nach Workflow-Validierung wechseln. Versuchen Sie nicht, alles am ersten Tag auf KI zu industrialisieren — das ist der erste Adoptionsfehler.
Um Produktions-Pipeline-Deployment zu automatisieren, ohne die Prompt- + Scoring- + A/B-Infrastruktur selbst zu bauen, integriert unser SteerAds Audit den obigen Workflow und schlägt einen KI-Industrialisierungsplan vor, segmentiert nach Anzeigengruppen-Kritikalität, mit einem Pilot-A/B-Test auf 2-3 Anzeigengruppen vor globalem Rollout. Um die KI-Google-Ads-Säule zu vertiefen, siehe unseren Artikel zu 30 JSON Google Ads Prompts und seine visuelle Erweiterung KI-Bilder Veo3 Flux Midjourney. KI-RSA ist weder magisch noch nutzlos — sie ist das, was Ihr umgebender Workflow daraus macht. Ohne Scoring, ohne isoliertes A/B, ohne Human Review ist sie eine Falle scheinbarer Produktivität. Mit methodischer Disziplin ist sie der sauberste Produktivitätshebel 2026 für Akquisitions-Teams — siehe auch offizielle Google-Ads-Dokumentation für weitere Details.
Um weiterzugehen, siehe auch unsere Guides zu AI Negative Keywords Discovery Clustering, Python API Automation, Zapier Make Google Ads.
Quellen
Offizielle Quellen für diesen Leitfaden:
FAQ
Performt eine KI-generierte RSA besser als eine von einem erfahrenen Menschen geschriebene RSA?
In den 14-21-Tage-A/B-Tests, die wir kontinuierlich auf begleiteten Konten laufen lassen, ist die Antwort kein einfaches Ja. CTR: +5 bis +8 % zugunsten gut geprompteter KI (KI optimiert den quantitativen Hook). Conversion-Rate: 0 bis -3 % zugunsten von Menschen (Menschen passen die Botschaft besser an den spezifischen Markt an, besonders in Nischen-B2B). CPA: gleichwertig +/- 5 %. Aber bei der Produktionszeit: 45 Min gut geprompteter KI + menschliche Bearbeitung vs. 2-3 h reiner Mensch. Der echte Gewinn liegt in der Produktivität, nicht in reiner Performance. Praktische Schlussfolgerung: auf standardisierten Anzeigengruppen (Mass-Market-E-Com, Volume-Lead-Gen) industrialisieren, Menschen auf strategischen Anzeigengruppen (Premium-Brand, Nischen-B2B, Top Revenue) behalten.
Sollten Sie Ad Rotation 'optimize' oder 'rotate evenly' mit KI-RSAs verwenden?
2026 hat Google seit Ende 2024 die Ad Rotation 'optimize' auf der Mehrheit der Kampagnen erzwungen — 'rotate evenly' ist nur in Legacy-Fällen zugänglich. Das verändert das Spiel beim Testen von KI- vs. Mensch-RSAs: Sie können nicht mehr manuell 50/50 ausspielen. Die saubere 2026-Methode = 2 verschiedene Anzeigengruppen erstellen (eine nur KI, eine nur Mensch), gleiches Budget, gleiche Keywords, gleiche Landing Page, und 14-21 Tage laufen lassen, um die Performance Anzeigengruppe-vs-Anzeigengruppe zu vergleichen. Wenn Google global optimize erzwingt, ist das nur innerhalb einer Anzeigengruppe für die 3 möglichen RSAs gültig. Diese Einschränkung macht den technischen RSA-A/B-Test rigoroser, aber auch lehrreicher — Sie isolieren den RSA-Faktor, während alles andere konstant bleibt.
Wie lange sollten Sie warten, bevor Sie eine KI-RSA vs. eine Mensch-RSA beurteilen?
Minimum 14 Tage und 5.000 Impressionen pro Anzeigengruppe, idealerweise 21 Tage und 10.000 Impressionen, um 3 vollständige Wochenzyklen zu absorbieren und Tag-zu-Tag-Rauschen zu neutralisieren. Auf den von uns überwachten Konten sind die ersten 7 Tage fast systematisch irreführend — Tag-zu-Tag-Varianz übersteigt oft die KI-vs-Mensch-RSA-Lücke. Zu früh zu schneiden ist der teuerste Fehler. Die strikte Regel: keine Entscheidung unter 14 Tagen und 5.000 Impressionen, und idealerweise mit dem Google Ads Asset Report abgleichen, um zu sehen, welche Headlines performen vs. welche 'Low' sind — oft kommen die handlungsfähigsten Insights von dieser Asset-Granularität, nicht vom globalen RSA-Verdikt.
Verändert der JSON-Prompt etwas für das Modell oder ist es nur Kosmetik?
Es ist keine Kosmetik. In den von uns durchgeführten Blindtests produzieren strukturierte JSON-Prompts (mit expliziten theme_distribution, character_max, excluded_terms, output_format Constraints) Outputs, die Zeichenanzahl-Constraints zu 94-99 % einhalten, vs. 62-78 % für äquivalente Prosa-Prompts. Die Einhaltung der Theme Distribution steigt von ~50 % (Prosa) auf ~88 % (JSON). Multi-Run-Varianz wird durch 3 geteilt. Der technische Grund: 2026 LLMs sind RLHF-fine-tuned, um formalisierte Strukturen besser zu folgen als Free-Prosa-Anweisungen. Genau wie Sie SQL-Queries schreiben, anstatt zu fragen 'gib mir die wichtigen Daten', schreiben Sie JSON-Prompts, anstatt 'mach was Gutes' zu schreiben. Format ist der Vertrag.
Was ist mit KI-Headlines, die das Scoring bestehen, aber im Human Review seltsam aussehen?
Ohne zu zögern ablehnen. Algorithmisches Scoring misst die Konformität mit Constraints (Zeichenanzahl, Theme-Tag, no_excluded_terms) — es misst NICHT Message-Market-Kohärenz oder emotionale Resonanz. Das ist genau die Rolle des Post-AI-Human-Review: 8 bis 15 % der technisch gültigen, aber seltsamen oder Off-Brand-Headlines eliminieren. Versuchen Sie nicht, eine seltsame KI-Headline aus algorithmischem Stolz zu 'retten'. Das richtige Verhältnis, das auf reifen Workflows beobachtet wird: Von 30 generierten Headlines (2× die 15 Ziele, um Auswahl zu geben) die 15 besten nach Human Review behalten. Die anderen 50 % gehen in den Müll, das ist normal und gesund. Die marginalen Kosten der Übergeneration sind vernachlässigbar, die Kosten einer seltsamen RSA in Produktion sind hoch.