RSA Google Ads : test rotation par IA

Sur les A/B tests 14-21 jours que nous menons en continu en 2026 sur les comptes accompagnés, une RSA générée par IA bien promptée sort un CTR supérieur de 5 à 8% à une RSA humain pure — mais avec un taux de conversion 0 à 3% inférieur sur les ad groups B2B niche et brand premium. CPA équivalent à +/- 5%. Le gain réel n'est pas sur la performance pure mais sur le temps de production : 45 min IA bien promptée vs 2-3h humain pur par RSA complète. ChatGPT n'est pas magique sur les RSA Google Ads — il est un accélérateur de production sur les ad groups standardisés, et un piège si déployé sans process sur les ad groups stratégiques

Cet article déroule le workflow complet 2026 : prompt template par intent (4 variantes), scoring qualité matricé, déploiement en ad rotation propre malgré la contrainte Google enforced optimize 2024+, A/B test holdout 14-21 jours en ad groups isolés, mesure incrémentalité IA vs humaine. Pas de hype — un process structuré qui sort 75-88% d'output exploitable au lieu des 40-55% d'un prompt naive. Pour la mécanique RSA pure (matrice 7 thèmes, pinning, Ad Strength), voir notre méthode de rédaction RSA. Pour le pillar IA Google Ads, notre article 30 prompts JSON Google Ads Notre calculateur CTR gratuit compare votre taux de clics aux médianes France 2026 par vertical.

RSA + IA : pourquoi ça reste un process humain en 2026

La génération de RSA par IA en 2026 est triviale techniquement — un modèle frontier produit 15 headlines et 4 descriptions en moins de 10 secondes — mais le différentiel de performance se joue sur le brief structuré, le scoring qualité et le test en compte, pas sur le moteur de génération. Sur le données Google Ads agrégées 2025-2026, un workflow IA-augmenté bien promptée sort 75 à 88% d'output exploitable contre 40 à 55% pour un prompt naive, avec un temps de production divisé par deux à RSA équivalente. Le diagramme ci-dessous résume les quatre étapes du workflow IA-augmented RSA → A/B test.

La génération RSA via IA en 2026 est techniquement triviale — n'importe quel modèle frontier (GPT-5, Claude Opus 4.7, Gemini 2.5 Pro) produit 15 headlines et 4 descriptions en moins de 10 secondes. La difficulté n'est pas la génération mais la qualité, le scoring, et le test en compte. Le rédacteur publicitaire 2026 ne disparaît pas — son rôle change : nourrir le moteur IA avec un brief structuré, valider les outputs, calibrer le matching message-marché, mesurer l'incrémentalité

Trois illusions persistantes sur les RSA IA :

« L'IA écrit mieux qu'un humain » — faux en moyenne. Sur les A/B tests sérieux, IA = +5-8% CTR mais -0-3% conversion rate. Net business souvent neutre ou légèrement positif.
« Plus on génère de variantes, mieux c'est » — faux. Au-delà de 30 outputs, la diversité plafonne et la review humaine devient le goulot.
« GPT-5 est strictement supérieur » — faux en 2026. Claude Opus 4.7 surpasse souvent GPT-5 sur les RSA B2B (cohérence prose, ton stakeholder-aware), GPT-5 est plus créatif sur les angles consumer mass market, Gemini 2.5 Pro excelle sur les contextes nécessitant grounding web temps réel.

Ce que l'IA fait bien (validé en compte 2025-2026) :

Production rapide de 30+ variantes pour matrice (gain temps -65%).
Respect strict des contraintes character count (94-99% en JSON structuré).
Cohérence brand voice multi-comptes (industrialisation agency).
Génération multi-langue depuis un FR canonique (cohérence locale).
Suggestions d'angles différenciation que l'humain n'a pas vus.

Ce que l'IA fait mal (et nécessite humain) :

Calibrer le matching message-marché spécifique sur niches B2B.
Détecter les angles risqués (légal, brand safety, ton off-brand).
Évaluer la résonance émotionnelle vs le simple respect formel.
Comprendre les codes vertical implicites (luxe, santé, finance, religion).
Anticiper les ambiguïtés de lecture mobile vs desktop.

Le ratio production observé sur workflows matures :

Référence officielle Google sur les RSA : la documentation des best practices RSA sur support.google.com et l'article ad rotation policy sur la rotation des annonces. Les recommandations Google convergent avec notre méthode tactique : 15 headlines, 7 themes, 1 pin max.

Le prompt template (4 versions par intent)

Un même prompt RSA ne marche pas pour tous les ad groups. Les 4 intents les plus fréquents — long-tail, brand defense, comparatif, lead gen — appellent 4 templates distincts. La structure JSON reste similaire ; le contenu des contraintes varie selon l'intent.

Template 1 — RSA long-tail (volume requêtes spécifiques) :

{
  "role": "Tu es un copywriter Google Ads RSA, francophone, expert long-tail.",
  "intent": "long_tail",
  "context": {
    "vertical": "[À renseigner]",
    "icp": "[Persona précise]",
    "long_tail_keywords_top_10": "[Coller les 10 requêtes top SQR]",
    "differentiateurs": ["[Liste 3-5 différenciateurs]"]
  },
  "task": "Genere 30 headlines (2x les 15 finales) et 8 descriptions (2x les 4 finales).",
  "constraints": {
    "headline_max_chars": 30,
    "description_max_chars": 90,
    "theme_distribution_target": {
      "keyword_principal": 6,
      "long_tail_variation": 6,
      "benefice_chiffre": 4,
      "proof_point": 4,
      "cta_direct": 4,
      "differenciation": 4,
      "brand_seul": 2
    },
    "include_long_tail_modifier_in_8_headlines": true,
    "no_repetition_keyword_exact": true,
    "no_external_benchmarks": true,
    "no_emojis": true,
    "no_caps_lock": true
  },
  "output_format": "JSON array : headline, theme, char_count, long_tail_modifier_used"
}

Template 2 — RSA brand defense (concurrent biddant sur votre marque) :

{
  "role": "Brand defense PPC copywriter.",
  "intent": "brand_defense",
  "context": {
    "brand_name": "[Votre marque]",
    "competitor_attacking": "[Nom concurrent]",
    "differentiateurs_vs_competitor": ["[3-5 forces spécifiques vs ce concurrent]"],
    "brand_proof_points": ["[2-3 proof points type note, années, clients]"]
  },
  "task": "Genere RSA de défense pour ad group brand exact match.",
  "constraints": {
    "include_brand_in_minimum_5_headlines": true,
    "tone": "confiant sans agressif, pas de bashing direct",
    "implicit_comparison": true,
    "no_competitor_name_mention": true,
    "headline_max_chars": 30,
    "include_proof_points_credibility": "minimum 3 headlines"
  },
  "output_format": "JSON array : headline, theme, brand_present, char_count"
}

Template 3 — RSA comparatif (vs concurrent direct) :

{
  "role": "Comparative PPC copywriter (legal-aware).",
  "intent": "comparatif",
  "context": {
    "your_solution": "[Votre produit]",
    "competitor_to_compare": "[Concurrent comparé]",
    "comparison_axes": ["prix", "features", "support", "intégrations"],
    "concrete_advantages": ["[Avantages chiffrés réels]"]
  },
  "task": "Genere RSA comparative pour ad group 'vs Concurrent' captant les requêtes du type [votre marque vs concurrent].",
  "constraints": {
    "headline_max_chars": 30,
    "tone": "factual evidence-based, pas de superlatifs gratuits",
    "no_misleading_claims": true,
    "include_minimum_3_chiffres_concrets": true,
    "comparative_advantage_per_axis": "1 headline minimum par axis"
  },
  "output_format": "JSON array : headline, comparison_axis, evidence_level, char_count"
}

Template 4 — RSA lead gen (qualification + objection handling) :

{
  "role": "Lead gen copywriter, focus qualification.",
  "intent": "lead_gen",
  "context": {
    "service_offered": "[Votre service]",
    "icp_target": "[Persona précise]",
    "icp_anti_target": "[Qui vous ne voulez PAS attirer]",
    "common_objections": ["[3-5 objections typiques]"],
    "qualification_criteria": ["[Critères qualification lead]"]
  },
  "task": "Genere RSA pour ad group lead gen avec objectif qualification, pas volume.",
  "constraints": {
    "headline_max_chars": 30,
    "include_qualifying_signals_minimum_3_headlines": true,
    "include_objection_handling_minimum_2_descriptions": true,
    "tone": "professionnel, sans urgence artificielle",
    "no_clickbait": true,
    "exclude_terms_attracting_unqualified": "[Termes à exclure type 'gratuit', 'sans engagement' si vous voulez du paid intent]"
  },
  "output_format": "JSON array : headline, qualifying_signal, objection_handled, char_count"
}

Ces 4 templates couvrent ~80% des cas d'usage RSA d'un compte typique. Pour les cas spéciaux (saisonnier, multi-langue, secteur régulé), créer des templates dérivés en ajoutant des contraintes spécifiques sans changer la structure JSON globale.

Scoring qualité : critères et seuils

Le scoring qualité est l'étape qui sépare les workflows IA matures des workflows amateurs. Sans scoring, on prend les 15 premières headlines générées — outputs souvent techniquement valides mais qualitativement médiocres. Le scoring matricé filtre les outputs avant la review humaine, ce qui réduit le temps de review de 60-70%.

6 critères de scoring (3 algorithmiques + 3 humains) :

{
  "scoring_rubric": {
    "char_count_compliance": {
      "type": "algorithmic",
      "rule": "headline <= 30 chars AND description <= 90 chars",
      "weight": 1,
      "binary": true
    },
    "theme_tag_valid": {
      "type": "algorithmic",
      "rule": "theme tag in [keyword, benefice, proof, cta, offre, differenciation, brand]",
      "weight": 1,
      "binary": true
    },
    "no_excluded_terms": {
      "type": "algorithmic",
      "rule": "no term from excluded_terms list present",
      "weight": 1,
      "binary": true
    },
    "no_keyword_repetition_exact": {
      "type": "algorithmic",
      "rule": "keyword exact appears max 3 times across 30 headlines",
      "weight": 1,
      "binary": true
    },
    "brand_voice_match": {
      "type": "human",
      "rule": "tone aligns with brand guidelines",
      "weight": 1,
      "binary": false,
      "scale": "0-3"
    },
    "proof_credibility": {
      "type": "human",
      "rule": "proof points are credible and verifiable",
      "weight": 1,
      "binary": false,
      "scale": "0-3"
    }
  },
  "filter_threshold": "score_total >= 5/6 (algorithmic) + brand_voice >= 2 + proof_credibility >= 2"
}

Workflow scoring en pratique :

# Pseudo-code scoring pipeline RSA IA
def score_rsa_outputs(outputs, scoring_rubric, brand_voice_guidelines):
    scored = []
    for output in outputs:
        score = {
            "char_count_compliance": check_chars(output),
            "theme_tag_valid": check_theme(output),
            "no_excluded_terms": check_excluded(output, excluded_list),
            "no_keyword_repetition": check_repetition(outputs, output),
        }
        # Algorithmic score 0-4
        algo_score = sum(score.values())
        if algo_score < 4:
            scored.append({"output": output, "passed": False, "reason": "algorithmic"})
            continue

        # Human review queue
        scored.append({
            "output": output,
            "passed": "pending_human_review",
            "algorithmic_score": algo_score,
            "human_criteria_to_review": ["brand_voice", "proof_credibility"]
        })
    return scored

Seuils observés sur 200 RSA scorées (benchmarks Google Ads agrégés) :

30 outputs IA générés (2x cibles), filtrage algorithmique : ~25 passent (83%).
25 outputs en review humaine : ~18 passent brand_voice + proof_credibility (72% des restants).
18 outputs validés, sélection finale 15 selon matrice 7 themes : 15 retenus, 3 rejetés pour redondance thématique.
Output final ratio : 15/30 = 50% des générations IA finissent en RSA production. Normal, sain.

Google enforced ad rotation 'optimize' depuis fin 2024 :

Depuis le rollout fin 2024, Google a forcé ad rotation 'optimize' (optimize for clicks then conversions) sur la majorité des campagnes Search. 'Rotate evenly' n'est plus accessible que sur des campagnes legacy spécifiques. Cela change la méthode A/B test RSA : on ne peut plus servir 50/50 manuellement entre 2 RSA dans le même ad group. La méthode propre 2026 = créer 2 ad groups isolés (un IA-only, un humain-only), même budget, même mots-clés, même landing page. C'est l'ad group qui devient l'unité d'A/B test, pas la RSA. Rigueur méthodologique accrue, mais résultats plus interprétables. Documentation officielle sur support.google.com/google-ads/answer/2404190.

Ad rotation propre : optimize vs rotate evenly

L'ad rotation est le paramètre qui dicte comment Google sert les RSA d'un ad group. Avant fin 2024, deux options étaient pleinement disponibles : optimize (Google sert prioritairement les RSA qui performent) et rotate evenly (Google sert les RSA en alternance équilibrée 90 jours). Depuis fin 2024, Google a phased out rotate evenly sur la majorité des comptes — seuls quelques cas legacy ou edge cases campagnes anciennes la conservent.

Ce que ça change pour les A/B tests RSA IA vs humaine :

Avant 2024 — on pouvait mettre 2 RSA dans le même ad group, rotate evenly, et comparer apples-to-apples sur 90 jours.
Depuis fin 2024 — Google force optimize, donc impossible de tester 2 RSA en serving 50/50 dans le même ad group. La RSA qui "gagne" la première semaine reçoit 80%+ du serving ensuite.
Méthode propre 2026 — créer 2 ad groups isolés : IA_only et Humain_only, mêmes mots-clés, même budget, même landing, même match types. C'est l'ad group qui devient l'unité d'A/B test.

Setup A/B test ad groups isolés (procédure) :

# Pseudo-code Google Ads API setup A/B ad groups
def create_ab_test_ad_groups(campaign_id, keywords, landing_url, budget_per_ad_group):
    # Ad group A : IA-only
    ad_group_a = create_ad_group(
        name="RSA_IA_test_a",
        campaign_id=campaign_id,
        max_cpc_default=None  # Inherit from Smart Bidding
    )
    add_keywords(ad_group_a.id, keywords)
    add_rsa(ad_group_a.id, headlines=ai_generated_15, descriptions=ai_generated_4)

    # Ad group B : Humain-only
    ad_group_b = create_ad_group(
        name="RSA_humain_test_b",
        campaign_id=campaign_id,
        max_cpc_default=None
    )
    add_keywords(ad_group_b.id, keywords)
    add_rsa(ad_group_b.id, headlines=human_written_15, descriptions=human_written_4)

    # Optionally adjust ad rotation (limited 2026)
    set_ad_rotation_optimize(ad_group_a.id)
    set_ad_rotation_optimize(ad_group_b.id)

    return {"ai_group": ad_group_a, "human_group": ad_group_b}

Précautions critiques pour la rigueur du test :

Mêmes mots-clés exact match types. Pas de variation broad match d'un côté et phrase match de l'autre — biais immédiat.
Même budget partagé ou budgets identiques par ad group. Pas de Smart Bidding learning phase asymétrique.
Même landing page URL sur toutes les RSA. Tester une page différente = autre variable confondue.
Pas de modification pendant le test 14-21 jours. Ni headlines ajoutées, ni mots-clés ajustés, ni budget changé.
Géo-targeting identique entre les 2 ad groups. Sinon biais market.
Pas d'audience signal différent entre les 2 ad groups.

Variables confondues qui ruinent le test :

Différence de bid adjustments device (mobile vs desktop) entre ad groups.
Différence de scheduling (jours / heures actives).
Différence de network targeting (Search Partners on/off).
Différence d'extensions (sitelinks, callouts différents).

Toutes ces variables doivent être strictement identiques entre les 2 ad groups. Sinon vous testez « RSA IA + bid +20% mobile » vs « RSA humaine + bid 0% mobile », ce qui ne dit rien sur la qualité RSA elle-même.

A/B test 14 jours : méthodologie holdout split

Le test A/B propre dure 14 jours minimum, idéalement 21 jours, avec 5 000 impressions minimum par ad group. En dessous, la variance jour-à-jour dépasse l'écart RSA IA vs humaine, et vous coupez sur du bruit. La méthodo holdout split applique les mêmes principes que les holdout tests d'incrémentalité (cf. notre guide incremental Discovery Ads) — appliqués à l'échelle ad group RSA.

Critères d'arrêt et lecture des résultats :

{
  "test_completion_criteria": {
    "min_duration_days": 14,
    "min_impressions_per_ad_group": 5000,
    "min_clicks_per_ad_group": 200,
    "min_conversions_per_ad_group": 10
  },
  "decision_rules": {
    "ctr_significant_improvement": "+8% relative AND p_value < 0.05",
    "conv_rate_no_significant_loss": "loss < 5% relative",
    "cpa_no_significant_loss": "loss < 8% relative"
  },
  "winner_definition": {
    "ai_wins_if": "ctr_significant_improvement AND no_significant_loss",
    "human_wins_if": "ai_does_not_meet_criteria OR conv_rate_loss > 8%",
    "tie_if": "no clear winner — choisir selon temps production"
  }
}

Exemple lecture résultats sur ad group e-com mode (benchmarks Google Ads agrégés T1 2026) :

Cas où l'humain l'emporte (données Google Ads, ad groups B2B niche) :

Conv rate IA souvent -8 à -15% en B2B niche (matching message-marché complexe).
Brand voice off-tone détecté en review humaine (l'IA tend à lisser les angles distinctifs).
CTR IA comparable à humain ou inférieur sur ad groups où la spécificité prime sur le hook.
Conclusion pratique : sur les ad groups B2B niche, brand premium, top revenue, prioriser humain.

Industrialisation décision matricée :

Si IA gagne sur CTR ET pas de loss conv rate ET temps production -50%+ : industrialiser IA sur ad groups similaires (même vertical, même intent).
Si IA équivalent humain ET temps production -50%+ : industrialiser IA pour gain productivité.
Si IA perd sur conv rate (supérieur à 5%) : garder humain sur ces ad groups.
Si tie : choisir IA sur ad groups standardisés, humain sur ad groups stratégiques.

Mesurer l'incrémentalité IA vs humaine

L'incrémentalité IA vs humaine est différente de l'incrémentalité campagne vs holdout. Ici, on mesure non pas si l'ad existe ou pas, mais si la version IA apporte un gain net sur la version humaine — sur 3 dimensions : performance pure (CTR / conv rate), temps de production, qualité brand voice.

Le mesure se fait à 3 niveaux :

Performance pure — A/B test ad groups isolés 14-21 jours (cf. section 5). C'est la mesure la plus visible mais souvent la moins discriminante.
Temps de production — chronométrage strict des étapes : brief, génération, scoring, sélection, calibration. Comparé sur 10 RSA produites par méthode.
Qualité brand voice — review qualitative blind par 3 reviewers humains qui ne savent pas qui a écrit (IA ou humain). Score 0-5 sur cohérence brand.

Résultats typiques selon les données Google Ads agrégées 2025-2026 (n=78 RSA blind tested) :

Lecture business des résultats :

L'IA bien promptée n'est pas strictement supérieure ni strictement inférieure à l'humain — elle déplace le frontier de production. À performance équivalente (-/+5% selon métrique), elle libère 50-60% du temps de production. Ce temps gagné peut être réalloué à la stratégie (quels ad groups stratégiques mériter d'humain pur), au tracking (Enhanced Conversions, offline), ou au scaling (plus d'ad groups thématiques).

La vraie question 2026 n'est pas « IA vs humain » mais « où allouer le budget temps humain » :

Ad groups standardisés (e-com mass market, lead gen volume) → IA bien promptée par défaut.
Ad groups stratégiques (brand premium, B2B niche, top revenue) → humain pur.
Ad groups multi-langue (industrialisation cross-pays) → IA bien promptée + review humaine local.
Ad groups saisonnier rapide (refresh hebdo) → IA bien promptée pour vitesse.
Ad groups nouveau lancement produit → humain pur, IA en support.

Les RSA naive ChatGPT (sans prompt structuré, sans scoring, sans A/B) ne sont jamais une option recommandée. Elles sortent en moyenne -5 à -12% de conversion rate vs baseline humain, avec une qualité brand voice 2.1/5 et un risque hallucinations stats élevé. Le gain temps apparent est compensé par les pertes performance et le risque réputationnel.

Erreurs courantes (over-fitting au prompt)

Sur les workflows RSA IA référencés en 2025-2026, voici les 6 erreurs récurrentes — chacune réduit le ROI réel de l'IA et explique pourquoi beaucoup d'annonceurs concluent à tort que « l'IA ne marche pas sur Google Ads ». Souvent, ce n'est pas l'IA qui ne marche pas — c'est le workflow.

Erreur 1 — Prompts naive sans contraintes structurées. Demander « écris-moi 15 headlines RSA pour mon entreprise » sans contexte, sans theme distribution, sans character_max, sans excluded_terms produit 40-55% d'output exploitable. Avec un prompt JSON structuré, on monte à 75-88%. Le gain n'est pas dans le modèle mais dans la précision des contraintes.

Erreur 2 — Pas de scoring qualité avant review humaine. Prendre les 15 premières headlines générées sans filtrage algorithmique fait perdre 60-70% du temps de review humaine sur des outputs qui ne respectent même pas les contraintes character count ou theme distribution. Toujours filtrer algorithmiquement avant review humaine.

Erreur 3 — Over-fitting au prompt initial. Itérer le prompt 15 fois pour « parfaire » l'output sur un ad group spécifique produit un prompt non-réutilisable. Le bon workflow : 80% prompt template générique réutilisable + 20% customisation contexte. Si vous itérez plus que 3 fois sur le prompt pour 1 ad group, c'est que le prompt template doit être enrichi, pas que vous devez sur-optimiser un cas particulier.

Erreur 4 — Tester 2 RSA dans le même ad group sous Google enforced optimize 2024+. Depuis fin 2024, Google force ad rotation optimize, donc 2 RSA dans le même ad group ne servent pas 50/50 — la première qui performe le premier 7 jours capte 80%+ du serving. Toute conclusion A/B intra-ad-group est biaisée. Méthode propre = 2 ad groups isolés, mêmes mots-clés.

Erreur 5 — Couper le test sous 14 jours et 5 000 impressions. La variance jour-à-jour dépasse souvent l'écart RSA IA vs humaine. Couper trop tôt = décision sur du bruit. Règle stricte : 14 jours minimum, 5 000 impressions minimum par ad group, idéalement 21 jours et 10 000 impressions pour absorber 3 cycles hebdomadaires complets.

Erreur 6 — Industrialiser IA sur tous les ad groups sans discernement. L'IA est un accélérateur de production sur les ad groups standardisés (e-com mass market, lead gen volume), mais elle dégrade les ad groups stratégiques (brand premium, B2B niche, top revenue) où le matching message-marché complexe prime. Industrialiser tout en IA est aussi naïf qu'industrialiser tout en humain — la sophistication 2026 est dans l'allocation du temps humain selon la criticité de l'ad group.

Le bon ratio IA / humain en 2026 :

Sur les comptes que nous suivons en régime de croisière 2026, la répartition optimale tend vers : ~60-70% des ad groups en IA bien promptée (production rapide, performance équivalente), ~25-35% en humain pur sur les ad groups stratégiques, ~5-10% en IA + review humaine intensive sur les ad groups multi-langue. Ce ratio évolue selon la maturité IA de l'équipe : démarrer à 30% IA / 70% humain pendant 60 jours d'apprentissage, monter progressivement à 60-70% IA après validation des workflows. Ne pas vouloir industrialiser tout en IA dès J1 — c'est la première erreur d'adoption.

Pour automatiser le déploiement en pipeline production sans construire l'infrastructure prompt + scoring + A/B vous-même, notre audit SteerAds intègre le workflow ci-dessus et propose un plan d'industrialisation IA segmenté par criticité d'ad group, avec A/B test pilote sur 2-3 ad groups avant rollout global. Pour aller plus loin sur le pilier IA Google Ads, voir notre article 30 prompts JSON Google Ads et son extension visuelle images IA Veo3 Flux Midjourney. La RSA IA n'est ni magique ni inutile — elle est ce que votre workflow autour permet d'en faire. Sans scoring, sans A/B isolé, sans review humaine, c'est un piège de productivité apparente. Avec discipline méthodologique, c'est le levier productivité le plus net 2026 pour les équipes acquisition — voir aussi documentation officielle Google Ads pour plus de détails.

Pour aller plus loin, voir aussi nos guides négatifs IA discovery clustering, automation API Python, Zapier Make Google Ads.

Sources

Sources officielles consultées pour ce guide :

FAQ

Une RSA générée par IA performe-t-elle mieux qu'une RSA écrite par un humain expérimenté ?

Sur les A/B tests 14-21 jours que nous menons en continu sur les comptes accompagnés, la réponse n'est pas un oui simple. CTR : +5 à +8% en faveur de l'IA bien promptée (l'IA optimise le hook quantitatif). Taux de conversion : 0 à -3% en faveur de l'humain (l'humain matche mieux le message au marché spécifique, surtout en B2B niche). CPA : équivalent à +/- 5%. Mais sur le temps de production : 45 min IA bien promptée + édition humaine vs 2-3h humain pur. Le gain réel est sur la productivité, pas sur la performance pure. La conclusion pratique : industrialiser sur les ad groups standardisés (e-com mass market, lead gen volume), garder l'humain sur les ad groups stratégiques (brand premium, B2B niche, top revenue).

Faut-il utiliser ad rotation 'optimize' ou 'rotate evenly' avec des RSA IA ?

En 2026, Google force ad rotation 'optimize' depuis fin 2024 sur la majorité des campagnes — 'rotate evenly' n'est plus accessible que dans des cas légacy. Cela change la donne pour le test RSA IA vs humaine : on ne peut plus servir 50/50 manuellement. La méthode propre 2026 = créer 2 ad groups distincts (un IA-only, un humain-only), même budget, même mots-clés, même landing page, et laisser tourner 14-21 jours pour comparer les performances ad group vs ad group. Si Google force optimize globalement, c'est seulement valable au sein d'une ad group sur les 3 RSA possibles. Cette contrainte rend l'A/B test RSA technique plus rigoureux mais aussi plus instructif — on isole le facteur RSA en gardant tout le reste constant.

Combien de temps faut-il attendre avant de juger une RSA IA vs une RSA humaine ?

Minimum 14 jours et 5 000 impressions par ad group, idéalement 21 jours et 10 000 impressions pour absorber 3 cycles hebdomadaires complets et neutraliser le bruit jour-de-la-semaine. Sur les comptes que nous suivons, les premières 7 jours sont quasi-systématiquement trompeurs — la variance jour-à-jour dépasse souvent l'écart RSA IA vs humaine. Couper trop tôt est l'erreur la plus coûteuse. La règle stricte : pas de décision sous 14 jours et 5 000 impressions, et idéalement croiser avec l'Asset Report Google Ads pour voir quelles headlines performent vs lesquelles sont 'Low' — souvent les insights les plus actionnables viennent de cette granularité asset, pas du verdict global RSA.

Le prompt JSON change-t-il quelque chose pour le modèle ou c'est juste cosmétique ?

Ce n'est pas cosmétique. Sur les blind tests que nous menons, les prompts JSON structurés (avec contraintes explicites theme_distribution, character_max, excluded_terms, output_format) produisent des outputs qui respectent les contraintes character count à 94-99% vs 62-78% pour les prompts prose équivalents. Le respect du theme distribution passe de ~50% (prose) à ~88% (JSON). La variance multi-runs est divisée par 3. La raison technique : les LLMs 2026 sont fine-tunés via RLHF pour mieux suivre des structures formalisées que des instructions en prose libre. Tout comme on écrit des SQL queries plutôt que de demander 'donne-moi les données importantes', on écrit des prompts JSON plutôt que d'écrire 'fais quelque chose de bien'. Le format est le contrat.

Que faire des headlines IA qui passent le scoring mais ont l'air bizarres en humain review ?

Les rejeter sans hésitation. Le scoring algorithmique mesure la conformité aux contraintes (character count, theme tag, no_excluded_terms) — il ne mesure PAS la cohérence message-marché ni la résonance émotionnelle. C'est précisément le rôle de la review humaine post-IA : éliminer les 8 à 15% de headlines techniquement valides mais bizarres ou off-brand. Ne pas vouloir 'sauver' une headline IA bizarre par fierté algorithmique. Le bon ratio observé sur les workflows matures : sur 30 headlines générées (2x les 15 cibles pour avoir le choix), garder les 15 meilleures après review humaine. Les 50% restants partent à la poubelle, c'est normal et sain. Le coût marginal d'overgénération est négligeable, le coût d'une RSA bizarre en production est élevé.