En los A/B tests de 14-21 días que ejecutamos de forma continua en 2026 en cuentas acompañadas, un RSA generado por IA bien prompteada entrega un CTR un 5-8% superior al de un RSA pure-human — pero con una tasa de conversión 0-3% inferior en ad groups B2B de nicho y de marca premium. CPA equivalente a +/- 5%. La ganancia real no está en el rendimiento puro sino en el tiempo de producción: 45 min de IA bien-prompteada vs 2-3h de humano puro por RSA completo. ChatGPT no es mágico en RSAs Google Ads — es un acelerador de producción en ad groups estandarizados, y una trampa si se despliega sin proceso en ad groups estratégicos.
Este artículo desgrana el workflow 2026 completo: plantilla de prompt por intención (4 variantes), scoring matricial de calidad, despliegue en ad rotation limpio pese a la restricción optimize impuesta por Google a partir de finales de 2024, A/B test holdout de 14-21 días en ad groups aislados, medición de incrementalidad IA vs humano. Sin hype — un proceso estructurado que entrega entre el 75 y el 88% de output utilizable en lugar del 40-55% de un prompt naïf. Para la mecánica RSA pura (matriz 7 temas, pinning, Ad Strength), vea nuestro método de redacción RSA. Para el pillar IA Google Ads, nuestro artículo sobre 30 prompts JSON Google Ads. Nuestra calculadora gratuita de CTR compara su tasa de clic con las medianas US 2026 por vertical.
RSA + IA: por qué sigue siendo un proceso humano en 2026
La generación RSA por IA en 2026 es técnicamente trivial — un modelo de frontera produce 15 headlines y 4 descriptions en menos de 10 segundos — pero el diferencial de rendimiento se juega en el brief estructurado, el scoring de calidad y los tests en cuenta, no en el motor de generación. En los datos agregados de Google Ads 2025-2026, un workflow IA-aumentado bien prompteado entrega entre el 75 y el 88% de output utilizable vs el 40-55% de un prompt naïf, con tiempo de producción dividido por 2 a igualdad de RSA. El diagrama siguiente resume las cuatro etapas del workflow RSA IA-aumentado → A/B test.
La generación RSA vía IA en 2026 es técnicamente trivial — cualquier modelo de frontera (GPT-5, Claude Opus 4.7, Gemini 2.5 Pro) produce 15 headlines y 4 descriptions en menos de 10 segundos. La dificultad no está en la generación sino en la calidad, el scoring y el test en cuenta. El copywriter publicitario 2026 no desaparece — su rol cambia: alimentar el motor IA con un brief estructurado, validar los outputs, calibrar el matching message-market, medir la incrementalidad.
Tres ilusiones persistentes sobre los RSAs IA:
- "La IA escribe mejor que un humano" — falso de media. En los A/B tests serios, la IA = +5-8% CTR pero -0-3% tasa de conversión. Negocio neto a menudo neutro o ligeramente positivo.
- "Cuantas más variantes generadas, mejor" — falso. Más allá de 30 outputs, la diversidad satura y la revisión humana se vuelve el cuello de botella.
- "GPT-5 es estrictamente superior" — falso en 2026. Claude Opus 4.7 supera a menudo a GPT-5 en RSAs B2B (coherencia de prosa, tono stakeholder-aware), GPT-5 es más creativo en ángulos consumer mass-market, Gemini 2.5 Pro destaca en contextos que requieren grounding web en tiempo real.
Lo que la IA hace bien (validado en cuenta 2025-2026):
- Producción rápida de más de 30 variantes para matriz (ganancia de tiempo del -65%).
- Adherencia estricta a las restricciones de char count (94-99% en JSON estructurado).
- Coherencia de brand voice multi-cuenta (industrialización en agencia).
- Generación multi-idioma a partir de un EN canónico (consistencia local).
- Sugerencias de ángulos de diferenciación que el humano no había visto.
Lo que la IA hace mal (y exige al humano):
- Calibrar el matching message-market específico en B2B de nicho.
- Detectar ángulos de riesgo (legal, brand safety, tono off-brand).
- Evaluar la resonancia emocional vs la simple conformidad formal.
- Comprender los códigos verticales implícitos (lujo, salud, finanzas, religión).
- Anticipar las ambigüedades de lectura mobile vs desktop.
Ratio de producción observada en workflows maduros:
Referencia oficial Google sobre los RSAs: la documentación de mejores prácticas RSA en support.google.com y el artículo sobre las políticas de ad rotation sobre ad rotation. Las recomendaciones de Google convergen con nuestro método táctico: 15 headlines, 7 temas, 1 pinning máx.
La plantilla de prompt (4 versiones por intención)
El mismo prompt RSA no funciona para todos los ad groups. Las 4 intenciones más frecuentes — long-tail, brand defense, comparativa, lead gen — exigen 4 plantillas distintas. La estructura JSON sigue siendo similar, el contenido de las restricciones varía según la intención.
Plantilla 1 — RSA long-tail (volumen sobre query específica):
{
"role": "You are a Google Ads RSA copywriter, native English, long-tail expert.",
"intent": "long_tail",
"context": {
"vertical": "[A rellenar]",
"icp": "[Persona precisa]",
"long_tail_keywords_top_10": "[Pegar las 10 primeras queries del SQR]",
"differentiators": ["[Listar 3-5 diferenciadores]"]
},
"task": "Generate 30 headlines (2x the 15 finals) and 8 descriptions (2x the 4 finals).",
"constraints": {
"headline_max_chars": 30,
"description_max_chars": 90,
"theme_distribution_target": {
"main_keyword": 6,
"long_tail_variation": 6,
"quantified_benefit": 4,
"proof_point": 4,
"direct_cta": 4,
"differentiation": 4,
"brand_only": 2
},
"include_long_tail_modifier_in_8_headlines": true,
"no_repetition_keyword_exact": true,
"no_external_benchmarks": true,
"no_emojis": true,
"no_caps_lock": true
},
"output_format": "JSON array: headline, theme, char_count, long_tail_modifier_used"
}
Plantilla 2 — RSA brand defense (competidor que puja sobre su marca):
{
"role": "Brand defense PPC copywriter.",
"intent": "brand_defense",
"context": {
"brand_name": "[Su marca]",
"competitor_attacking": "[Nombre del competidor]",
"differentiators_vs_competitor": ["[3-5 fortalezas específicas frente a este competidor]"],
"brand_proof_points": ["[2-3 proof points como rating, años, clientes]"]
},
"task": "Generate defense RSA for brand exact-match ad group.",
"constraints": {
"include_brand_in_minimum_5_headlines": true,
"tone": "confident without aggressive, no direct bashing",
"implicit_comparison": true,
"no_competitor_name_mention": true,
"headline_max_chars": 30,
"include_proof_points_credibility": "minimum 3 headlines"
},
"output_format": "JSON array: headline, theme, brand_present, char_count"
}
Plantilla 3 — RSA comparativa (vs competidor directo):
{
"role": "Comparative PPC copywriter (legal-aware).",
"intent": "comparative",
"context": {
"your_solution": "[Su producto]",
"competitor_to_compare": "[Competidor comparado]",
"comparison_axes": ["price", "features", "support", "integrations"],
"concrete_advantages": ["[Ventajas reales cuantificadas]"]
},
"task": "Generate comparative RSA for 'vs Competitor' ad group capturing queries like [your brand vs competitor].",
"constraints": {
"headline_max_chars": 30,
"tone": "factual evidence-based, no gratuitous superlatives",
"no_misleading_claims": true,
"include_minimum_3_concrete_numbers": true,
"comparative_advantage_per_axis": "1 headline minimum per axis"
},
"output_format": "JSON array: headline, comparison_axis, evidence_level, char_count"
}
Plantilla 4 — RSA lead gen (cualificación + tratamiento de objeciones):
{
"role": "Lead gen copywriter, qualification focus.",
"intent": "lead_gen",
"context": {
"service_offered": "[Su servicio]",
"icp_target": "[Persona precisa]",
"icp_anti_target": "[A quién NO quiere atraer]",
"common_objections": ["[3-5 objeciones típicas]"],
"qualification_criteria": ["[Criterios de cualificación de los leads]"]
},
"task": "Generate RSA for lead gen ad group with qualification objective, not volume.",
"constraints": {
"headline_max_chars": 30,
"include_qualifying_signals_minimum_3_headlines": true,
"include_objection_handling_minimum_2_descriptions": true,
"tone": "professional, no artificial urgency",
"no_clickbait": true,
"exclude_terms_attracting_unqualified": "[Términos a excluir como 'gratis', 'sin compromiso' si quiere intención de pago]"
},
"output_format": "JSON array: headline, qualifying_signal, objection_handled, char_count"
}
Estas 4 plantillas cubren ~80% de los casos de uso RSA típicos en cuenta. Para los casos especiales (estacional, multi-idioma, sector regulado), cree plantillas derivadas añadiendo restricciones específicas sin cambiar la estructura JSON global.
Scoring de calidad: criterios y umbrales
El scoring de calidad es el paso que separa los workflows IA maduros de los amateur. Sin scoring, se cogen los 15 primeros headlines generados — outputs a menudo técnicamente válidos pero cualitativamente mediocres. El scoring matricial filtra los outputs antes de la revisión humana, reduciendo el tiempo de revisión entre un 60 y un 70%.
6 criterios de scoring (3 algorítmicos + 3 humanos):
{
"scoring_rubric": {
"char_count_compliance": {
"type": "algorithmic",
"rule": "headline <= 30 chars AND description <= 90 chars",
"weight": 1,
"binary": true
},
"theme_tag_valid": {
"type": "algorithmic",
"rule": "theme tag in [keyword, benefit, proof, cta, offer, differentiation, brand]",
"weight": 1,
"binary": true
},
"no_excluded_terms": {
"type": "algorithmic",
"rule": "no term from excluded_terms list present",
"weight": 1,
"binary": true
},
"no_keyword_repetition_exact": {
"type": "algorithmic",
"rule": "keyword exact appears max 3 times across 30 headlines",
"weight": 1,
"binary": true
},
"brand_voice_match": {
"type": "human",
"rule": "tone aligns with brand guidelines",
"weight": 1,
"binary": false,
"scale": "0-3"
},
"proof_credibility": {
"type": "human",
"rule": "proof points are credible and verifiable",
"weight": 1,
"binary": false,
"scale": "0-3"
}
},
"filter_threshold": "score_total >= 5/6 (algorithmic) + brand_voice >= 2 + proof_credibility >= 2"
}
Workflow de scoring en la práctica:
# Pseudocódigo pipeline scoring RSA IA
def score_rsa_outputs(outputs, scoring_rubric, brand_voice_guidelines):
scored = []
for output in outputs:
score = {
"char_count_compliance": check_chars(output),
"theme_tag_valid": check_theme(output),
"no_excluded_terms": check_excluded(output, excluded_list),
"no_keyword_repetition": check_repetition(outputs, output),
}
# Score algorítmico 0-4
algo_score = sum(score.values())
if algo_score < 4:
scored.append({"output": output, "passed": False, "reason": "algorithmic"})
continue
# Cola de revisión humana
scored.append({
"output": output,
"passed": "pending_human_review",
"algorithmic_score": algo_score,
"human_criteria_to_review": ["brand_voice", "proof_credibility"]
})
return scored
Umbrales observados en 200 RSAs puntuados (benchmarks agregados de Google Ads):
- 30 outputs IA generados (2x los objetivos), filtrado algorítmico: ~25 pasan (83%).
- 25 outputs en revisión humana: ~18 pasan brand_voice + proof_credibility (72% de los que quedan).
- 18 outputs validados, selección final de 15 según matriz 7 temas: 15 conservados, 3 rechazados por redundancia temática.
- Ratio de output final: 15/30 = 50% de las generaciones IA terminan en RSAs en producción. Normal, sano.
Desde el rollout de finales de 2024, Google fuerza el ad rotation 'optimize' (optimizado para clics y luego conversiones) en la mayoría de las campañas Search. 'Rotate evenly' solo es accesible en algunas campañas legacy específicas. Esto cambia el método A/B test RSA: ya no se pueden servir manualmente al 50/50 dos RSAs en el mismo ad group. El método limpio 2026 = crear 2 ad groups aislados (uno AI-only, otro Human-only), mismo presupuesto, mismas keywords, misma landing page. El ad group se convierte en la unidad de A/B test, no el RSA. Mayor rigor metodológico, pero resultados más interpretables. Documentación oficial en support.google.com/google-ads/answer/2404190.
Ad rotation limpio: optimize vs rotate evenly
El ad rotation es el parámetro que dicta cómo Google sirve los RSAs de un ad group. Antes de finales de 2024, dos opciones estaban plenamente disponibles: optimize (Google sirve preferentemente los RSAs que mejor rinden) y rotate evenly (Google sirve los RSAs en alternancia equilibrada en 90 días). Desde finales de 2024, Google ha retirado progresivamente rotate evenly en la mayoría de las cuentas — solo algunas campañas antiguas legacy o de borde lo conservan.
Lo que esto cambia en los A/B tests RSA IA vs humano:
- Antes de 2024 — se podían poner 2 RSAs en el mismo ad group, en rotate evenly, y comparar de forma equilibrada en 90 días.
- Desde finales de 2024 — Google fuerza optimize, así que es imposible testar 2 RSAs sirviendo al 50/50 en el mismo ad group. El RSA que "gana" la primera semana recibe el 80%+ del serving después.
- Método limpio 2026 — crear 2 ad groups aislados:
AI_onlyyHuman_only, mismas keywords, mismo presupuesto, misma landing, mismos match types. El ad group se convierte en la unidad de A/B test.
Setup de los ad groups A/B aislados (procedimiento):
# Pseudocódigo setup ad groups A/B Google Ads API
def create_ab_test_ad_groups(campaign_id, keywords, landing_url, budget_per_ad_group):
# Ad group A: AI-only
ad_group_a = create_ad_group(
name="RSA_AI_test_a",
campaign_id=campaign_id,
max_cpc_default=None # Heredar de Smart Bidding
)
add_keywords(ad_group_a.id, keywords)
add_rsa(ad_group_a.id, headlines=ai_generated_15, descriptions=ai_generated_4)
# Ad group B: Human-only
ad_group_b = create_ad_group(
name="RSA_human_test_b",
campaign_id=campaign_id,
max_cpc_default=None
)
add_keywords(ad_group_b.id, keywords)
add_rsa(ad_group_b.id, headlines=human_written_15, descriptions=human_written_4)
# Eventualmente ajustar el ad rotation (limitado 2026)
set_ad_rotation_optimize(ad_group_a.id)
set_ad_rotation_optimize(ad_group_b.id)
return {"ai_group": ad_group_a, "human_group": ad_group_b}
Precauciones críticas para el rigor del test:
- Mismas keywords exact-match-type. Sin variación broad-match en un lado y phrase-match en el otro — sesgo inmediato.
- Mismo presupuesto compartido o presupuestos por ad group idénticos. Sin fase de aprendizaje Smart Bidding asimétrica.
- Misma landing page URL en todos los RSAs. Testar una página distinta = otra variable de confusión.
- Sin modificación durante los 14-21 días de test. Sin headlines añadidos, sin keywords ajustadas, sin presupuesto modificado.
- Mismo geo-targeting entre los 2 ad groups. En otro caso, sesgo de mercado.
- Sin señal de audiencia distinta entre los 2 ad groups.
Variables de confusión que arruinan el test:
- Bid adjustments device distintos (mobile vs desktop) entre ad groups.
- Scheduling distinto (días / horas activos).
- Network targeting distinto (Search Partners on/off).
- Extensiones distintas (sitelinks, callouts diferentes).
Todas estas variables deben ser estrictamente idénticas entre los 2 ad groups. Si no, está testando "RSA IA + bid +20% mobile" vs "RSA humano + bid 0% mobile", lo que no dice nada sobre la calidad del RSA en sí.
A/B test de 14 días: metodología holdout split
El A/B test limpio dura 14 días mínimo, idealmente 21 días, con 5.000 impresiones mínimo por ad group. Por debajo, la varianza día a día supera la diferencia RSA IA vs humano, y se corta sobre ruido. La metodología holdout split aplica los mismos principios que los tests holdout de incrementalidad (vea nuestra guía Discovery Ads incremental) — adaptada a la escala RSA ad group.
Criterios de detención y lectura de resultados:
{
"test_completion_criteria": {
"min_duration_days": 14,
"min_impressions_per_ad_group": 5000,
"min_clicks_per_ad_group": 200,
"min_conversions_per_ad_group": 10
},
"decision_rules": {
"ctr_significant_improvement": "+8% relative AND p_value < 0.05",
"conv_rate_no_significant_loss": "loss < 5% relative",
"cpa_no_significant_loss": "loss < 8% relative"
},
"winner_definition": {
"ai_wins_if": "ctr_significant_improvement AND no_significant_loss",
"human_wins_if": "ai_does_not_meet_criteria OR conv_rate_loss > 8%",
"tie_if": "no clear winner — choose by production time"
}
}
Ejemplo de lectura en un ad group fashion e-com (benchmarks agregados Google Ads Q1 2026):
Casos en los que el humano gana (datos Google Ads, ad groups B2B de nicho):
- Conv rate IA a menudo -8 a -15% en B2B de nicho (matching message-market complejo).
- Brand voice off-tone detectado en revisión humana (la IA tiende a aplanar los ángulos distintivos).
- CTR IA comparable o inferior al humano en ad groups donde la especificidad gana al hook.
- Conclusión práctica: en ad groups B2B de nicho, marca premium, top revenue, priorizar al humano.
Matriz de decisión de industrialización:
- Si IA gana en CTR Y sin pérdida de conv rate Y tiempo de producción -50%+: industrializar IA en ad groups similares (misma vertical, misma intención).
- Si IA equivalente al humano Y tiempo de producción -50%+: industrializar IA por la ganancia de productividad.
- Si IA pierde en conv rate (por encima del 5%): conservar al humano en estos ad groups.
- Si empate: elegir IA en ad groups estandarizados, humano en ad groups estratégicos.
Medir la incrementalidad IA vs humano
La incrementalidad IA vs humano es distinta de la incrementalidad campaña vs holdout. Aquí, no se mide si el anuncio existe o no, sino si la versión IA aporta una ganancia neta sobre la versión humana — en 3 dimensiones: rendimiento puro (CTR / conv rate), tiempo de producción, calidad de brand voice.
La medición se hace en 3 niveles:
- Rendimiento puro — A/B test de 14-21 días en ad groups aislados (vea la sección 5). Es la medida más visible pero a menudo la menos discriminante.
- Tiempo de producción — cronometrado estricto de las etapas: brief, generación, scoring, selección, calibrado. Comparado en 10 RSAs producidos por método.
- Calidad de brand voice — revisión cualitativa a ciegas por 3 reviewers humanos que no conocen al autor (IA o humano). Score de 0 a 5 sobre la consistencia con la marca.
Resultados típicos en datos agregados de Google Ads 2025-2026 (n=78 RSAs testados a ciegas):
Lectura business de los resultados:
La IA bien prompteada no es ni estrictamente superior ni estrictamente inferior al humano — desplaza la frontera de producción. A rendimiento equivalente (-/+5% por métrica), libera entre el 50 y el 60% del tiempo de producción. Este tiempo ganado puede reasignarse a estrategia (qué ad groups estratégicos merecen humano puro), tracking (Enhanced Conversions, offline) o scaling (más ad groups temáticos).
La pregunta real 2026 no es "IA vs humano" sino "dónde asignar el presupuesto de tiempo humano":
- Ad groups estandarizados (e-com mass-market, lead gen de volumen) → IA bien prompteada por defecto.
- Ad groups estratégicos (marca premium, B2B de nicho, top revenue) → humano puro.
- Ad groups multi-idioma (industrialización entre países) → IA bien prompteada + revisión humana local.
- Ad groups estacionales rápidos (refresco semanal) → IA bien prompteada por velocidad.
- Ad groups de lanzamiento de nuevo producto → humano puro, IA en soporte.
Los RSAs IA naïf ChatGPT (sin prompt estructurado, sin scoring, sin A/B) nunca son una opción recomendada. Producen de media -5 a -12% de tasa de conversión vs baseline humano, con calidad de brand voice de 2,1/5 y un riesgo alto de alucinaciones de stats. La ganancia de tiempo aparente queda compensada por las pérdidas de rendimiento y el riesgo reputacional.
Errores frecuentes (over-fitting al prompt)
En los workflows IA RSA referenciados en 2025-2026, he aquí los 6 errores recurrentes — cada uno reduce el ROI real de la IA y explica por qué muchos anunciantes concluyen erróneamente que "la IA no funciona en Google Ads". A menudo, no es la IA la que no funciona — es el workflow.
Error 1 — Prompts naïf sin restricciones estructuradas. Pedir "escríbeme 15 headlines RSA para mi empresa" sin contexto, sin theme distribution, sin character_max, sin excluded_terms produce un 40-55% de output utilizable. Con un prompt JSON estructurado, sube al 75-88%. La ganancia no está en el modelo sino en la precisión de las restricciones.
Error 2 — Sin scoring de calidad antes de la revisión humana. Coger los 15 primeros headlines generados sin filtrado algorítmico desperdicia entre el 60 y el 70% del tiempo de revisión humana en outputs que ni siquiera respetan las restricciones de char count o de theme distribution. Filtre siempre algorítmicamente antes de la revisión humana.
Error 3 — Over-fitting al prompt inicial. Iterar el prompt 15 veces para "perfeccionar" el output en un ad group específico produce un prompt no reutilizable. El buen workflow: 80% de plantilla de prompt genérica reutilizable + 20% de personalización del contexto. Si itera más de 3 veces el prompt en 1 ad group, la plantilla de prompt necesita ser enriquecida, no sobre-optimizada para un caso particular.
Error 4 — Testar 2 RSAs en el mismo ad group bajo el optimize impuesto por Google a partir de 2024. Desde finales de 2024, Google fuerza el ad rotation optimize, así que 2 RSAs en el mismo ad group no se sirven al 50/50 — el primero que rinde en los 7 primeros días capta el 80%+ del serving. Toda conclusión A/B intra-ad-group está sesgada. Método limpio = 2 ad groups aislados, mismas keywords.
Error 5 — Cortar el test antes de 14 días y 5.000 impresiones. La varianza día a día supera a menudo la diferencia RSA IA vs humano. Cortar demasiado pronto = decisión sobre ruido. Regla estricta: 14 días mínimo, 5.000 impresiones mínimo por ad group, idealmente 21 días y 10.000 impresiones para absorber 3 ciclos semanales completos.
Error 6 — Industrializar la IA en todo ad group sin discernimiento. La IA es un acelerador de producción en ad groups estandarizados (e-com mass-market, lead gen de volumen), pero degrada los ad groups estratégicos (marca premium, B2B de nicho, top revenue) en los que el matching message-market complejo prevalece. Industrializar todo en IA es tan naïf como industrializar todo en humano — la sofisticación 2026 está en la asignación de tiempo humano según la criticidad del ad group.
En las cuentas que monitorizamos en régimen de crucero 2026, el split óptimo tiende a: ~60-70% de los ad groups en IA bien prompteada (producción rápida, rendimiento equivalente), ~25-35% en humano puro en ad groups estratégicos, ~5-10% en IA + revisión humana intensiva en ad groups multi-idioma. Este ratio evoluciona con la madurez IA del equipo: empiece a 30% IA / 70% humano durante 60 días de aprendizaje, pase progresivamente a 60-70% IA tras la validación de los workflows. No intente industrializar todo en IA en D1 — es el primer error de adopción.
Para automatizar el despliegue del pipeline en producción sin construir uno mismo la infraestructura prompt + scoring + A/B, nuestra auditoría SteerAds integra el workflow anterior y propone un plan de industrialización IA segmentado por criticidad de ad group, con A/B test piloto en 2-3 ad groups antes del roll-out global. Para profundizar en el pillar IA Google Ads, vea nuestro artículo sobre 30 prompts JSON Google Ads y su extensión visual imágenes IA Veo3 Flux Midjourney. La IA RSA ni es mágica ni es inútil — es lo que el workflow alrededor hace de ella. Sin scoring, sin A/B aislado, sin revisión humana, es una trampa de productividad aparente. Con disciplina metodológica, es la palanca de productividad más limpia 2026 para los equipos de adquisición — vea también la documentación oficial Google Ads para más detalles.
Para profundizar, vea también nuestras guías sobre descubrimiento y clustering de negative keywords con IA, automatización Python API, Zapier Make Google Ads.
Fuentes
Fuentes oficiales consultadas para esta guía:
FAQ
¿Un RSA generado por IA rinde mejor que un RSA escrito por un humano experimentado?
En los A/B tests de 14-21 días que ejecutamos de forma continua en cuentas acompañadas, la respuesta no es un sí simple. CTR: +5 a +8% a favor de una IA bien-prompteada (la IA optimiza el hook cuantitativo). Tasa de conversión: 0 a -3% a favor del humano (el humano matchea mejor el message-market específico, sobre todo en B2B de nicho). CPA: equivalente a +/- 5%. Pero en tiempo de producción: 45 min de IA bien-prompteada + edición humana vs 2-3h de humano puro. La ganancia real está en la productividad, no en el rendimiento puro. La conclusión práctica: industrialice en ad groups estandarizados (e-com mass-market, lead gen de volumen), conserve al humano en ad groups estratégicos (premium brand, B2B de nicho, top revenue).
¿Hay que usar ad rotation 'optimize' o 'rotate evenly' con RSAs IA?
En 2026, Google ha impuesto el ad rotation 'optimize' desde finales de 2024 en la mayoría de las campañas — 'rotate evenly' solo es accesible en casos legacy. Esto cambia el juego del A/B test RSA IA vs humano: ya no se puede servir 50/50 manualmente. El método limpio 2026 = crear 2 ad groups distintos (uno AI-only, otro Human-only), mismo presupuesto, mismas keywords, misma landing, y dejar correr 14-21 días para comparar el rendimiento ad group contra ad group. Si Google fuerza optimize globalmente, solo es válido dentro de un ad group entre los 3 RSAs posibles. Esta restricción hace el A/B test técnico de RSA más riguroso pero también más instructivo — aísla el factor RSA manteniendo todo lo demás constante.
¿Cuánto tiempo hay que esperar antes de juzgar un RSA IA vs un RSA humano?
14 días mínimo y 5.000 impresiones por ad group, idealmente 21 días y 10.000 impresiones para absorber 3 ciclos semanales completos y neutralizar el ruido de día de la semana. En las cuentas que monitorizamos, los 7 primeros días son casi sistemáticamente engañosos — la varianza día a día supera a menudo la diferencia RSA IA vs humano. Cortar demasiado pronto es el error más caro. Regla estricta: ninguna decisión por debajo de 14 días y 5.000 impresiones, e idealmente cruzar con el Asset Report de Google Ads para ver qué headlines rinden vs cuáles están en 'Low' — a menudo los insights más accionables vienen de esa granularidad de asset, no del veredicto global del RSA.
¿El prompt JSON cambia algo para el modelo o es solo cosmético?
No es cosmético. En los tests a ciegas que ejecutamos, los prompts JSON estructurados (con restricciones explícitas theme_distribution, character_max, excluded_terms, output_format) producen outputs que respetan los character counts en un 94-99% vs 62-78% en prompts en prosa equivalentes. La adherencia a la theme distribution sube de ~50% (prosa) a ~88% (JSON). La varianza multi-run se divide por 3. Razón técnica: los LLMs 2026 están RLHF fine-tuneados para seguir mejor estructuras formalizadas que instrucciones en prosa libre. Igual que escribe consultas SQL en lugar de pedir 'dame los datos importantes', escribe prompts JSON en lugar de redactar 'haz algo bueno'. El formato es el contrato.
¿Y los headlines IA que pasan el scoring pero parecen raros en la revisión humana?
Recházelos sin dudar. El scoring algorítmico mide la conformidad a las restricciones (character count, theme tag, no_excluded_terms) — NO mide la coherencia message-market ni la resonancia emocional. Es precisamente el papel de la revisión humana post-IA: eliminar el 8-15% de headlines técnicamente válidos pero raros u off-brand. No intente 'salvar' un headline IA raro por orgullo algorítmico. La proporción correcta observada en workflows maduros: de los 30 headlines generados (2x los 15 finales para tener elección), conserve los 15 mejores tras revisión humana. El otro 50% va a la basura, es normal y sano. El coste marginal de la sobre-generación es despreciable, el coste de un RSA raro en producción es alto.