Por qué ciertos dominios aparecen en las respuestas de ChatGPT y el tuyo no
Los motores de búsqueda generativos —ChatGPT, Perplexity, Gemini— no indexan el mundo igual que Google. Tienen su propia lógica de selección y citación. Si tu empresa no forma parte de esa lógica, no existe para una fracción creciente de tus compradores potenciales.
La intención de consulta determina qué fuentes son elegibles
Antes de plantearse si un dominio aparece o no citado, hay que entender el mecanismo de selección. Los LLMs con capacidad de búsqueda no recuperan fuentes de forma aleatoria: construyen un pool de candidatos a partir de la intención detrás de la consulta.
Cada tipo de intención activa un perfil de fuente diferente:
«¿Qué es X?» · «¿Cómo funciona?»
Prioriza documentación oficial, guías técnicas estructuradas y contenido con definiciones claras al inicio.
«Alternativas a X» · «Pros y contras»
Favorece fuentes con metodología explícita, benchmarks, tablas comparativas y criterios verificables.
«Mejor X para Y» · «Precio de Z»
Tira de fuentes con datos normalizados: fichas de producto, listados estructurados, partners verticales.
Marca + soporte / descarga
El peso de la entidad (marca reconocida) supera al del mejor contenido. La autoridad de entidad es clave.
Las señales de autoridad que leen los LLMs
Los motores generativos arrancan con un sistema de recuperación que hereda señales clásicas de ranking, pero las combina con lógica propia de citación. Hay dos capas que operan en secuencia:
Capa 1 — Señales de tipo buscador (elegibilidad)
Para que una página entre al pool de candidatos, primero tiene que ser recuperable. Aquí siguen pesando la relevancia temática, la utilidad percibida y —especialmente en temas sensibles (YMYL)— las señales de E-E-A-T: experiencia, pericia, autoridad y confianza. La reputación externa, medida por referencias y cobertura de terceros, actúa como credencial.
Capa 2 — Señales de tipo citación (selección)
Una vez la página entra al contexto, el LLM decide si la cita. Aquí pesan tres factores determinantes:
-
Consenso
Consistencia entre múltiples fuentes sobre el mismo claim. Si varias fuentes coinciden, el resumen es más estable y la citación más probable.
-
Verificabilidad
Presencia de metodología, datos y referencias. El sistema intenta anclar sus afirmaciones a evidencia inspeccionable.
-
Extractabilidad
Si el contenido relevante no puede aislarse del boilerplate —menús, popups, interstitials—, se convierte en ruido para el sistema.
Estructura de contenido: lo que el modelo puede —y no puede— extraer
Los sistemas RAG (Retrieval-Augmented Generation) siguen un patrón de cuatro pasos: recuperar → extraer → resumir → citar. El fallo en cualquiera de esos pasos elimina la página del resultado final, aunque el contenido sea excelente.
Las estructuras que favorecen la extracción comparten un patrón claro:
-
Definición en el primer párrafo
El lead debe responder «qué es» sin necesidad de leer el resto. Facilita contestar queries directas sin mezclar contexto irrelevante.
-
Subtítulos semánticos H2/H3 y secciones autocontenidas
Cada sección debe tener sentido por sí sola. Perder la jerarquía de headings al convertir a texto plano degrada la señal de forma significativa.
-
Listas y tablas con etiquetas claras
Mejoran la extracción de puntos y comparativas. El contenido principal debe separarse visualmente del boilerplate.
-
Datos verificables con fuente
Citar estudios, estándares o datasets y separar «opinión» de «hecho» reduce las malas atribuciones y aumenta la confianza del modelo en el chunk.
Por qué la mayoría de páginas corporativas no son citadas
Los patrones de fallo no son aleatorios. Se agrupan en cinco categorías técnicas, cada una con causas y correcciones específicas:
-
Rastreo
Opt-out del bot de ChatGPT (
OAI-SearchBot) o bloqueo medianterobots.txt. Si el bot no puede rastrear, no hay posibilidad de citación independientemente de la calidad del contenido. -
Indexación
Directivas
noindexactivas, problemas de accesibilidad del crawler o paywall sin implementación que permita indexación parcial. La página sale del pool candidato. -
Renderizado
Contenido generado exclusivamente con JavaScript sin SSR o hidratación controlada. El crawler indexa una página vacía o incompleta.
-
Autoridad
Ausencia de señales E-E-A-T: sin autoría identificada, sin metodología, sin reputación externa. Crítico en sectores YMYL (finanzas, salud, legal).
-
Citabilidad
Contenido genérico y de marketing sin definiciones precisas, sin criterios, sin datos. Imposible anclar un statement concreto con cita a ese contenido.
La auditoría GEO: construir una ruta de citación verificable
El enfoque más riguroso consiste en auditar la «ruta de citación» completa: rastreo → indexación → recuperación → extracción → chunk → cita. Cada etapa tiene checks verificables.
-
Captura de evidencia
Ejecutar las queries objetivo en ChatGPT con Search activado y exportar el listado de Sources. Identificar qué dominios aparecen, con qué frecuencia y en qué tipo de intención.
-
Mapa de fuentes por intención
Etiquetar cada fuente competidora —documentación, académica, medio, community, enciclopédica— e identificar qué fragmento sostiene qué claim.
-
Auditoría técnica de elegibilidad
Verificar que
OAI-SearchBotestá permitido enrobots.txty que los logs registran sus visitas. Revisar bloqueosnoindexy el renderizado del contenido crítico. -
Re-arquitectura para extracción
Aplicar lead definicional, H2/H3 semánticos, listas con etiquetas y ejemplos mínimos. El contenido clave debe ser extraíble sin menús ni popups.
-
Entidad clara y marcado estructurado
Añadir structured data coherente y visible para reforzar la entidad y sus propiedades. Validar con el test de rich results y comprobar coherencia nombre-marca-URL.
-
Validación periódica
Repetir la consulta en ventanas de tiempo comparables. Medir cuota de citas por dominio, diversidad de URLs y estabilidad por tipo de intención.
