Los motores de búsqueda generativos —ChatGPT, Perplexity, Gemini— no indexan el mundo igual que Google. Tienen su propia lógica de selección y citación. Si tu empresa no forma parte de esa lógica, no existe para una fracción creciente de tus compradores potenciales.

La intención de consulta determina qué fuentes son elegibles

Antes de plantearse si un dominio aparece o no citado, hay que entender el mecanismo de selección. Los LLMs con capacidad de búsqueda no recuperan fuentes de forma aleatoria: construyen un pool de candidatos a partir de la intención detrás de la consulta.

Cada tipo de intención activa un perfil de fuente diferente:

Informacional

«¿Qué es X?» · «¿Cómo funciona?»

Prioriza documentación oficial, guías técnicas estructuradas y contenido con definiciones claras al inicio.

Comparativa

«Alternativas a X» · «Pros y contras»

Favorece fuentes con metodología explícita, benchmarks, tablas comparativas y criterios verificables.

Transaccional

«Mejor X para Y» · «Precio de Z»

Tira de fuentes con datos normalizados: fichas de producto, listados estructurados, partners verticales.

Navegacional

Marca + soporte / descarga

El peso de la entidad (marca reconocida) supera al del mejor contenido. La autoridad de entidad es clave.

Las señales de autoridad que leen los LLMs

Los motores generativos arrancan con un sistema de recuperación que hereda señales clásicas de ranking, pero las combina con lógica propia de citación. Hay dos capas que operan en secuencia:

Capa 1 — Señales de tipo buscador (elegibilidad)

Para que una página entre al pool de candidatos, primero tiene que ser recuperable. Aquí siguen pesando la relevancia temática, la utilidad percibida y —especialmente en temas sensibles (YMYL)— las señales de E-E-A-T: experiencia, pericia, autoridad y confianza. La reputación externa, medida por referencias y cobertura de terceros, actúa como credencial.

Capa 2 — Señales de tipo citación (selección)

Una vez la página entra al contexto, el LLM decide si la cita. Aquí pesan tres factores determinantes:

  • Consenso
    Consistencia entre múltiples fuentes sobre el mismo claim. Si varias fuentes coinciden, el resumen es más estable y la citación más probable.
  • Verificabilidad
    Presencia de metodología, datos y referencias. El sistema intenta anclar sus afirmaciones a evidencia inspeccionable.
  • Extractabilidad
    Si el contenido relevante no puede aislarse del boilerplate —menús, popups, interstitials—, se convierte en ruido para el sistema.

Estructura de contenido: lo que el modelo puede —y no puede— extraer

Los sistemas RAG (Retrieval-Augmented Generation) siguen un patrón de cuatro pasos: recuperar → extraer → resumir → citar. El fallo en cualquiera de esos pasos elimina la página del resultado final, aunque el contenido sea excelente.

Las estructuras que favorecen la extracción comparten un patrón claro:

  1. Definición en el primer párrafo

    El lead debe responder «qué es» sin necesidad de leer el resto. Facilita contestar queries directas sin mezclar contexto irrelevante.

  2. Subtítulos semánticos H2/H3 y secciones autocontenidas

    Cada sección debe tener sentido por sí sola. Perder la jerarquía de headings al convertir a texto plano degrada la señal de forma significativa.

  3. Listas y tablas con etiquetas claras

    Mejoran la extracción de puntos y comparativas. El contenido principal debe separarse visualmente del boilerplate.

  4. Datos verificables con fuente

    Citar estudios, estándares o datasets y separar «opinión» de «hecho» reduce las malas atribuciones y aumenta la confianza del modelo en el chunk.

Por qué la mayoría de páginas corporativas no son citadas

Los patrones de fallo no son aleatorios. Se agrupan en cinco categorías técnicas, cada una con causas y correcciones específicas:

  • Rastreo
    Opt-out del bot de ChatGPT (OAI-SearchBot) o bloqueo mediante robots.txt. Si el bot no puede rastrear, no hay posibilidad de citación independientemente de la calidad del contenido.
  • Indexación
    Directivas noindex activas, problemas de accesibilidad del crawler o paywall sin implementación que permita indexación parcial. La página sale del pool candidato.
  • Renderizado
    Contenido generado exclusivamente con JavaScript sin SSR o hidratación controlada. El crawler indexa una página vacía o incompleta.
  • Autoridad
    Ausencia de señales E-E-A-T: sin autoría identificada, sin metodología, sin reputación externa. Crítico en sectores YMYL (finanzas, salud, legal).
  • Citabilidad
    Contenido genérico y de marketing sin definiciones precisas, sin criterios, sin datos. Imposible anclar un statement concreto con cita a ese contenido.

La auditoría GEO: construir una ruta de citación verificable

El enfoque más riguroso consiste en auditar la «ruta de citación» completa: rastreo → indexación → recuperación → extracción → chunk → cita. Cada etapa tiene checks verificables.

  1. Captura de evidencia

    Ejecutar las queries objetivo en ChatGPT con Search activado y exportar el listado de Sources. Identificar qué dominios aparecen, con qué frecuencia y en qué tipo de intención.

  2. Mapa de fuentes por intención

    Etiquetar cada fuente competidora —documentación, académica, medio, community, enciclopédica— e identificar qué fragmento sostiene qué claim.

  3. Auditoría técnica de elegibilidad

    Verificar que OAI-SearchBot está permitido en robots.txt y que los logs registran sus visitas. Revisar bloqueos noindex y el renderizado del contenido crítico.

  4. Re-arquitectura para extracción

    Aplicar lead definicional, H2/H3 semánticos, listas con etiquetas y ejemplos mínimos. El contenido clave debe ser extraíble sin menús ni popups.

  5. Entidad clara y marcado estructurado

    Añadir structured data coherente y visible para reforzar la entidad y sus propiedades. Validar con el test de rich results y comprobar coherencia nombre-marca-URL.

  6. Validación periódica

    Repetir la consulta en ventanas de tiempo comparables. Medir cuota de citas por dominio, diversidad de URLs y estabilidad por tipo de intención.


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio