Un cliente me llamó un martes por la mañana la primavera pasada — con pánico genuino en la voz. Dirigía un sitio de listados de propiedades, alrededor de 42,000 páginas, y Google Search Console acababa de decirle que solo 5,800 de ellas estaban indexadas. Había perdido aproximadamente el 86% de sus páginas indexables, aparentemente de la noche a la mañana. Sin actualización de algoritmo. Sin acción manual. Sin implementaciones recientes que pudiera recordar. Solo… desaparecieron.
He visto este escenario exacto más veces de las que puedo contar, en más de 12,000 construcciones de WordPress de Seahawk. Y lo que enloquesce es que la pérdida de indexación en sitios grandes rara vez tiene una sola causa. Generalmente son tres o cuatro pequeños fallos que se componen silenciosamente hasta que algo colapsa.
Así es exactamente cómo lo diagnostico.
---
Comienza Con Google Search Console — Pero No Te Detengas Ahí
Lo primero que siempre hago es abrir el reporte de Páginas en Google Search Console. No el reporte antiguo de Cobertura — Google lo actualizó en 2023, y la nueva vista de Páginas desglosa indexadas vs. no indexadas con códigos de razón apropiados. Toma una captura de pantalla el primer día. Necesitas una línea base.Pages report in Google Search Console. Not the old Coverage report — Google updated this in 2023, and the new Pages view breaks down indexed vs. non-indexed with proper reason codes. Take a screenshot on day one. You need a baseline.
Los códigos de razón importan enormemente. "Rastreada — actualmente no indexada" es un problema completamente diferente de "Excluida por etiqueta 'noindex'". Uno es un problema de señal de calidad; el otro es un desastre de configuración. He visto desarrolladores tratar ambos de forma idéntica y perder semanas persiguiendo lo incorrecto.
Las razones que veo con más frecuencia en sitios grandes
- Rastreada — actualmente no indexada: Google visitó la página pero decidió que no valía la pena indexarla. Generalmente contenido delgado, casi duplicados, o páginas que no generan backlinks o enlaces internos.: Google visited the page but decided it wasn't worth indexing. Usually thin content, near-duplicates, or pages that don't earn backlinks or internal links.
- Descubierta — actualmente no indexada: Google encontró la URL (probablemente en tu sitemap) pero aún no se ha molestado en rastrearla. Esto es un problema de presupuesto de rastreo, no de contenido.: Google found the URL (likely in your sitemap) but hasn't bothered to crawl it yet. This is a crawl budget problem, not a content problem.
- Excluida por etiqueta 'noindex': Alguien — posiblemente tú, posiblemente un plugin — agregó una directiva noindex. Más sobre esto abajo.: Someone — possibly you, possibly a plugin — added a noindex directive. More on this below.
- Duplicada, Google eligió un canonical diferente: Tus etiquetas canonical apuntan a algo inesperado, o Google las está anulando.: Your canonical tags are pointing somewhere unexpected, or Google is overriding them.
- Página con redirección: Una página que debería ser indexable está redirigiendo a algún lugar, correcta o incorrectamente.: A page that should be indexable is redirecting somewhere, either correctly or incorrectly.
No solo mires los totales. Descarga la lista completa para cada código de razón como CSV. En un sitio de 40,000 páginas, necesitas poder ordenar y filtrar.
---
El Presupuesto de Rastreo Es Real y Destruirá Sitios Grandes
En 2019, Seahawk trabajaba con un cliente de e-commerce grande — alrededor de 28,000 páginas de productos — y no podíamos entender por qué Google solo estaba rastreando alrededor de 3,000 páginas por día. El sitio era rápido. El sitemap estaba limpio. Todo se veía bien en la superficie.
Resultó que el sitio estaba generando miles de URLs de navegación facetada — ?colour=red&size=large&sort=price — que eran rastreables, no estaban canónicas adecuadamente, y estaban consumiendo la asignación de rastreo de Googlebot antes de que llegara a las páginas de productos reales.?colour=red&size=large&sort=price — that were crawlable, not canonicalised properly, and eating through Googlebot's crawl allowance before it ever reached the real product pages.
El presupuesto de rastreo es esencialmente el número de URLs que Googlebot está dispuesto a rastrear en tu sitio dentro de un período de tiempo determinado. La documentación de Google sobre presupuesto de rastreo realmente vale la pena leer — son honrados sobre cómo funciona. La versión corta: si lo estás desperdiciando en URLs inútiles, las páginas importantes no se rastrean.Google's own documentation on crawl budget is genuinely worth reading — they're honest about how it works. The short version: if you're wasting it on garbage URLs, the important pages don't get crawled.
Cómo Auditar Realmente el Presupuesto de Rastreo
- Extrae tus registros del servidor. No las estadísticas de rastreo de Google — registros del servidor reales. Herramientas como Screaming Frog Log File Analyser te permiten filtrar puramente por hits de Googlebot.Screaming Frog Log File Analyser let you filter purely for Googlebot hits.
- Observa qué porcentaje de las visitas de Googlebot caen en URLs que realmente te importan. Si está por debajo del 60%, tienes un problema de presupuesto.
- Encuentra los patrones de URL que están consumiendo la mayoría de rastreos. Ordena por frecuencia. Los principales culpables son casi siempre: navegación facetada, paginación en archivos paginados, parámetros de ID de sesión, y páginas de archivo de categoría/etiqueta vacías.
- Arregla la fuente, no solo el síntoma. Desallows en robots.txt para parámetros que nunca deberían rastrearse. Etiquetas canónicas para todo lo demás.
robots.txtfor parameters that should never be crawled. Canonical tags for everything else.
En ese proyecto de e-commerce, bloqueamos las URLs facetadas mediante robots.txt y agregamos rel="canonical" a todas las vistas filtradas. En seis semanas, las páginas indexadas pasaron de 8,000 a 24,000. Mismo contenido. Solo Googlebot finalmente llegando a él.robots.txt and added rel="canonical" to all filtered views. Within six weeks, indexed pages went from 8,000 to 24,000. Same content. Just Googlebot finally reaching it.
---
El desastre noindex (Sucede más de lo que crees)
Necesito hablar de esto porque yo mismo lo he causado. No fue mi mejor momento. Durante una migración de staging a producción para un sitio de noticias allá en 2021, olvidamos desmarcar "Desalentar a los motores de búsqueda de indexar este sitio" en WordPress Configuración → Lectura. El sitio salió a producción con noindex en todo el sitio. Pasaron once días antes de que el cliente notara que el tráfico orgánico se había desplomado.
WordPress esconde esa casilla en un lugar donde nadie la espera. Y ciertos plugins de SEO — Yoast, Rank Math, incluso AIOSEO — tienen sus propios toggles noindex a nivel de tipo de contenido, a nivel de taxonomía, y a nivel de página individual. Cualquiera de ellos puede silenciosamente noindexar grandes secciones de tu sitio.
Cómo verificar noindex a escala
Ejecuta Screaming Frog en el sitio completo y filtra por páginas que retornen una directiva noindex. Exporta la lista. Luego haz referencia cruzada contra tus grupos de URLs importantes — páginas de productos, páginas de servicios, posts del blog, lo que sea que importe al negocio.noindex directive. Export the list. Then cross-reference against your important URL groups — product pages, service pages, blog posts, whatever matters to the business.
También revisa tu robots.txt en tudominio.com/robots.txt. Busca reglas Disallow: demasiado amplias. He visto reglas como Disallow: /wp-content/ que bloquean CSS y JS que Google necesita para renderizar páginas correctamente — lo que puede causar fallos de renderizado que parecen problemas de indexación pero en realidad son Googlebot viendo una página rota.robots.txt at yourdomain.com/robots.txt. Look for overly broad Disallow: rules. I've seen rules like Disallow: /wp-content/ blocking CSS and JS that Google needs to render pages properly — which can cause rendering failures that look like indexation problems but are actually Googlebot seeing a broken page.
---
Etiquetas Canonical que se están disparando silenciosamente
Los canonicals son el asesino de indexación más sigiloso en sitios WordPress grandes. Porque se ven correctos en aislamiento y solo revelan su daño a escala.
Aquí hay un patrón que veo constantemente: un sitio con WooCommerce tiene productos accesibles a través de múltiples rutas de URL — /product/red-shoes/, /product-category/footwear/red-shoes/, y a veces /shop/red-shoes/. Cada una tiene una etiqueta canónica, pero si esas canónicas apuntan a URLs ligeramente diferentes (HTTP vs HTTPS, barra diagonal final vs sin barra, www vs sin www), Google las trata como señales que apuntan a páginas diferentes y se niega a consolidarlas./product/red-shoes/, /product-category/footwear/red-shoes/, and sometimes /shop/red-shoes/. Each one has a canonical tag, but if those canonicals point to slightly different URLs (HTTP vs HTTPS, trailing slash vs no trailing slash, www vs non-www), Google treats them as signals pointing to different pages and refuses to consolidate.
La solución es aburrida pero necesaria:
- Audita cada estructura de URL que tu instalación de WordPress genera. Usa el rastreo de sitio de Screaming Frog → filtra por "Canonical" → exporta.
- Busca desajustes en protocolos, barras diagonales finales y variaciones de subdominio.
- Asegúrate de que tu canónica siempre coincida exactamente con tu URL preferida, carácter por carácter.
Rank Math y Yoast generan etiquetas canónicas automáticamente, pero ninguno de los dos plugins sabe sobre tus redirecciones de .htaccess o la normalización de URLs de tu CDN. Tienes que verificar la canónica renderizada, no solo lo que el plugin cree que está generando. Descarga la página con una herramienta como httpstatus.io e inspecciona los encabezados de respuesta y el HTML reales..htaccess redirects or your CDN's URL normalisation. You have to verify the rendered canonical, not just what the plugin thinks it's outputting. Fetch the page with a tool like httpstatus.io and inspect the actual response headers and HTML.
---
Los Sitemaps XML Suelen Estar Mal en Sitios Grandes
La mayoría de plugins de SEO de WordPress generan sitemaps automáticamente. La mayoría también incluye URLs que no quieres en tu sitemap — páginas paginadas (/page/2/, /page/3/), archivos de autor, páginas de etiquetas con dos publicaciones, páginas de archivos adjuntos./page/2/, /page/3/), author archives, tag pages with two posts on them, attachment pages.
Un sitemap debe ser una lista corta de tus mejores páginas más canónicas. No un volcado de cada URL que WordPress haya generado alguna vez.
Reglas de Higiene de Sitemap que Realmente Sigo
- Excluye páginas de archivo paginadas. Siempre.
- Excluye páginas de archivo de autor a menos que sea un sitio multiautor donde las páginas de autor tengan valor de contenido genuino.
- Excluye archivos de etiquetas a menos que las etiquetas estén editorialmentegestionadas y tengan contenido significativo.
- Establece un umbral de conteo de posts — generalmente excluyo cualquier página de archivo con menos de cinco posts.
- Divide sitemaps grandes en índices de sitemap. Mantén archivos de sitemap individuales por debajo de 10MB y por debajo de 50,000 URLs. Google ha documentado límites aquí.documented limits here.
En el sitio de listados de propiedades del inicio de este post, el sitemap tenía 41,000 URLs incluyendo cada archivo de etiqueta, cada página de paginación, y — esto todavía me duele decirlo — la página de login de WordPress. Límpialo primero. Siempre.
---
Los Enlaces Internos Son un Tema de Indexación
Las personas no piensan en los enlaces internos como una herramienta de indexación. Deberían.
Si una página no tiene enlaces internos que apunten a ella, es posible que Googlebot nunca la encuentre, incluso si está en tu sitemap. Los sitemaps le dicen a Google que una URL existe. Los enlaces internos le dicen a Google que una URL importa. Esas son señales diferentes.matters. Those are different signals.
En sitios grandes de contenido, las páginas huérfanas son frecuentes. Un artículo de blog publicado hace tres años, enlazado desde el archivo de posts pero nunca enlazado desde ningún otro post, verá su frecuencia de rastreo caer a casi nada con el tiempo.
Uso el reporte "Orphan Pages" de Screaming Frog (bajo Site Structure) para identificar páginas en el sitemap que tienen cero enlaces internos apuntando a ellas. Luego trabajo de vuelta en el contenido para encontrar lugares lógicos donde agregar enlaces. No enlaces forzados — enlaces realmente relevantes. Toma tiempo pero el impacto en la indexación es real.
---
Una Lista de Verificación de Diagnóstico Sistemático
Si le estuviera pasando esto a un desarrollador junior en Seahawk, así es el orden en el que le haría trabajar:
- Abre Google Search Console → reporte Pages → descarga todas las URLs no indexadas con códigos de razón.
- Revisa robots.txt para disallows amplios accidentales.
robots.txtfor accidental broad disallows. - Verifica que la casilla "Discourage search engines" de WordPress esté desactivada.
- Ejecuta Screaming Frog y filtra por directivas noindex a nivel de página.
- Verifica las etiquetas canónicas — en la salida renderizada, no en la configuración del plugin.
- Extrae los registros del servidor y revisa la distribución de rastreo de Googlebot entre tipos de URL.
- Audita el sitemap XML en busca de URLs innecesarias (paginación, archivos vacíos, variantes no canónicas).
- Ejecuta el reporte de Páginas Huérfanas e identifica páginas sin enlaces internos.
- Busca navegación facetada o URLs basadas en parámetros que generen rutas duplicadas rastreables.
- Verifica la velocidad de página — las páginas que se agotan consistentemente reciben menos prioridad de Googlebot.
No intentes arreglarlo todo de una vez. Soluciona una categoría de problemas, espera tres o cuatro semanas a que Google vuelva a rastrear, mide, y luego pasa al siguiente. Si cambias todo simultáneamente nunca sabrás qué fue lo que realmente funcionó.
---
FAQ
¿Por qué se indexan páginas una semana y luego desaparecen la siguiente?
El índice de Google no es estático. Constantemente reevalúa páginas basándose en señales de calidad, actualidad y eficiencia de rastreo. Una página que fue indexada hace seis meses puede ser eliminada si no ha obtenido enlaces, no está siendo vinculada internamente, o si la evaluación de calidad de Google sobre tu dominio ha cambiado. Esto es especialmente común después de una migración de sitio o una revisión de contenido significativa — Google rastrea nuevamente, reevalúa, y a veces decide que las páginas previamente indexadas ya no cumplen con los estándares.
¿Afecta la velocidad del sitio a la indexación?
Sí, más directamente de lo que la mayoría de las personas se da cuenta. Si las páginas responden lentamente — consistentemente más de 2-3 segundos para la respuesta inicial del servidor — Googlebot depriorizará su rastreo. A gran escala, esto significa que las páginas lentas simplemente no se rastrean lo suficientemente frecuente para mantenerse indexadas. Arregla tu Time to First Byte (TTFB) antes de preocuparte por cualquier otra cosa relacionada con velocidad. Un plugin de caché económico como WP Rocket marca una diferencia medible. Core Web Vitals importan para rankings, pero TTFB importa para el rastreo.
¿Pueden demasiadas páginas en un sitemap perjudicar la indexación?
No directamente — pero un sitemap inflado con URLs de baja calidad diluye la señal que le estás enviando a Google sobre qué importa. Si tu sitemap contiene 40,000 URLs y 30,000 de ellas son páginas de archivo delgadas, Google aprende a tratar tu sitemap como ruido. Mantén los sitemaps ajustados y de alta calidad. Piénsalo como una curación editorial, no como un inventario de URLs.
¿Debería usar la herramienta de Inspección de URL de Google para solicitar indexación manualmente?
Para páginas individuales importantes — sí, absolutamente. Pero no intentes solicitar indexación manual para miles de URLs. No escala y Google ha dicho que no otorga tratamiento especial a las URLs solicitadas manualmente a largo plazo. Arregla los problemas subyacentes de rastreo y calidad y deja que el rastreo natural de Google haga el trabajo. Usa la inspección manual para verificar que páginas específicas puedan ser indexadas, no para forzar la indexación de todo.can be indexed, not to force index everything.
---
La verdad honesta es que el diagnóstico de indexación no es trabajo glamuroso. Son hojas de cálculo, archivos de registro, y mucha espera. Pero en un sitio grande, incluso recuperar el 20% de tus páginas indexadas perdidas puede significar un salto significativo en tu tráfico orgánico — y en un sitio de listados de propiedades de 40,000 páginas, ese es dinero real. Haz bien lo básico antes de perseguir nada exótico. Casi nunca es exótico.
