Por qué ciertos dominios aparecen en las respuestas de ChatGPT y el tuyo no

Lectura: 8 min

Los motores de búsqueda generativos como ChatGPT, Perplexity, Gemini, no indexan el mundo igual que Google. Tienen su propia lógica de selección y citación. Si tu empresa no forma parte de esa lógica, no existe para una fracción creciente de tus compradores potenciales.

La intención de consulta determina qué fuentes son elegibles

Antes de plantearse si un dominio aparece o no citado, hay que entender el mecanismo de selección. Los LLMs con capacidad de búsqueda no recuperan fuentes de forma aleatoria: construyen un pool de candidatos a partir de la intención detrás de la consulta.

Cada tipo de intención activa un perfil de fuente diferente:

Informacional

«¿Qué es X?» · «¿Cómo funciona?»

Prioriza documentación oficial, guías técnicas estructuradas y contenido con definiciones claras en el primer párrafo.

Comparativa

«Alternativas a X» · «Pros y contras»

Favorece fuentes con metodología explícita, benchmarks, tablas comparativas y criterios verificables.

Transaccional

«Mejor X para Y» · «Precio de Z»

Tira de fuentes con datos normalizados: fichas de producto, listados estructurados, partners verticales.

Navegacional

Marca + soporte / descarga

El peso de la entidad (marca reconocida) supera al del mejor contenido. La autoridad de entidad es decisiva.

Implicación práctica

Si tu contenido no está estructurado en torno a intenciones específicas, el sistema generativo no tiene forma de saber cuándo debes ser una fuente elegible. Escribir «para SEO» ya no es suficiente.

Las señales de autoridad que leen los LLMs

Los motores generativos arrancan con un sistema de recuperación que hereda señales clásicas de ranking, pero las combina con lógica propia de citación. Hay dos capas que operan en secuencia:

Capas de selección en motores generativos
Capa Criterio Señales determinantes
Capa 1 — Buscador Elegibilidad: entrar al pool de candidatos Relevancia temática · utilidad percibida · E-E-A-T · reputación externa medida por referencias de terceros
Capa 2 — Citación Selección: decidir si citar la página en el resultado Consenso entre fuentes · verificabilidad (metodología y datos) · extractabilidad del contenido principal

En la Capa 2, los tres factores de citación operan así: el consenso implica que si varias fuentes coinciden en un mismo claim, el resumen es más estable y la citación más probable. La verificabilidad exige presencia de metodología, datos y referencias que el sistema pueda anclar. La extractabilidad requiere que el contenido relevante pueda aislarse del boilerplate —menús, popups, interstitials— sin convertirse en ruido.

Estructura de contenido: lo que el modelo puede —y no puede— extraer

Los sistemas RAG (Retrieval-Augmented Generation) siguen un patrón de cuatro pasos: recuperar → extraer → resumir → citar. El fallo en cualquiera de esos pasos elimina la página del resultado final, aunque el contenido sea excelente.

Las estructuras que favorecen la extracción comparten un patrón claro:

  1. Definición en el primer párrafo

    El lead debe responder «qué es» sin necesidad de leer el resto. Facilita contestar queries directas sin mezclar contexto irrelevante.

  2. Subtítulos semánticos H2/H3 y secciones autocontenidas

    Cada sección debe tener sentido por sí sola. Perder la jerarquía de headings al convertir a texto plano degrada la señal de forma significativa.

  3. Listas y tablas con etiquetas claras

    Mejoran la extracción de puntos y comparativas. El contenido principal debe separarse visualmente del boilerplate.

  4. Datos verificables con fuente

    Citar estudios, estándares o datasets y separar «opinión» de «hecho» reduce las malas atribuciones y aumenta la confianza del modelo en el chunk.

Anti-patrón frecuente

Páginas con mucho «chrome» —navegación agresiva, popups, widgets promocionales— y poco contenido principal. La extracción sigue siendo uno de los problemas más difíciles de los sistemas de recuperación actuales.

Por qué la mayoría de páginas corporativas no son citadas

Los patrones de fallo no son aleatorios. Se agrupan en cinco categorías técnicas, cada una con causas y correcciones específicas:

  • Rastreo
    Opt-out del bot de ChatGPT (OAI-SearchBot) o bloqueo mediante robots.txt. Si el bot no puede rastrear, no hay posibilidad de citación con independencia de la calidad del contenido.
  • Indexación
    Directivas noindex activas, problemas de accesibilidad del crawler o paywall sin implementación que permita indexación parcial. La página queda fuera del pool candidato.
  • Renderizado
    Contenido generado exclusivamente con JavaScript sin SSR o hidratación controlada. El crawler indexa una página vacía o incompleta.
  • Autoridad
    Ausencia de señales E-E-A-T: sin autoría identificada, sin metodología, sin reputación externa. Crítico en sectores YMYL (finanzas, salud, legal).
  • Citabilidad
    Contenido genérico y de marketing sin definiciones precisas, sin criterios, sin datos. Imposible anclar un statement concreto con cita a ese contenido.

La auditoría GEO: construir una ruta de citación verificable

El enfoque más riguroso de una auditoria GEO consiste en auditar la «ruta de citación» completa: rastreo → indexación → recuperación → extracción → chunk → cita. Cada etapa tiene checks verificables.

Ruta de citación completa
Rastreo Indexación Recuperación Extracción Chunk Cita
  1. Captura de evidencia

    Ejecutar las queries objetivo en ChatGPT con Search activado y exportar el listado de Sources. Identificar qué dominios aparecen, con qué frecuencia y en qué tipo de intención.

  2. Mapa de fuentes por intención

    Etiquetar cada fuente competidora —documentación, académica, medio, community, enciclopédica— e identificar qué fragmento sostiene qué claim.

  3. Auditoría técnica de elegibilidad

    Verificar que OAI-SearchBot está permitido en robots.txt y que los logs registran sus visitas. Revisar bloqueos noindex y el renderizado del contenido crítico.

  4. Re-arquitectura para extracción

    Aplicar lead definicional, H2/H3 semánticos, listas con etiquetas y ejemplos mínimos. El contenido clave debe ser extraíble sin menús ni popups.

  5. Entidad clara y marcado estructurado

    Añadir structured data coherente y visible para reforzar la entidad y sus propiedades. Validar con el test de rich results y comprobar coherencia nombre-marca-URL.

  6. Validación periódica

    Repetir la consulta en ventanas de tiempo comparables. Medir cuota de citas por dominio, diversidad de URLs y estabilidad por tipo de intención.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio