Lista de Verificación de Auditoría SEO Técnica: Sitios de 10,000+ Páginas

Un cliente me llamó en 2022, un operador de comercio electrónico con sede en Reino Unido con aproximadamente 14,000 páginas de productos, furioso porque había perdido el 34% de su tráfico orgánico en seis semanas. Sin penalización manual. Sin anuncio de algoritmo. Solo un colapso lento y silencioso. Realizamos un rastreo completo con Screaming Frog y encontramos el problema en 90 minutos: su paginación había generado automáticamente miles de URLs casi duplicadas, Google había rastreado todas ellas en lugar de las páginas de productos reales, y su presupuesto de rastreo estaba completamente agotado. Desperdiciado. Cada mes.

Punto clave: Auditar un sitio de 10,000 páginas no es simplemente una auditoría de sitio pequeño a mayor escala: los modos de fallo son presupuesto de rastreo, plantillas e indexación a escala, y la lista de verificación cambia en consecuencia.

Así es el SEO de sitios grandes. Los problemas no son más difíciles de entender, solo tienen consecuencias catastróficamente mayores. Una etiqueta canónica mal configurada en un sitio de 20 páginas es molesta. En un sitio de 14,000 páginas, puede asfixiar silenciosamente tu índice completo.

Esta es la lista de verificación de auditoría que uso en Seahawk Media cuando un sitio supera la marca de 10,000 páginas. Sin ningún orden particular de importancia, porque cada sitio grande tiene su propia jerarquía de desastres.

---

Comienza con el Presupuesto de Rastreo, No con Palabras Clave

La mayoría de las personas comienzan una auditoría de sitio grande mirando rankings. Orden incorrecto. Completamente. Los rankings están aguas abajo de la indexación, y la indexación está aguas abajo del presupuesto de rastreo. Corrige el orden de las operaciones.

Presupuesto de rastreo, para cualquiera que necesite la versión simple: es la cantidad de URLs que Googlebot rastreará en tu sitio dentro de un período de tiempo determinado. La documentación de Google sobre presupuesto de rastreo realmente vale la pena leerla aquí, son bastante específicos sobre qué lo desperdicia.

¿Qué está consumiendo tu presupuesto?

Extrae primero tus registros del servidor. No datos de GSC, registros reales del servidor. Uso GoAccess para análisis rápido de archivos de registro grandes porque maneja el volumen sin problemas. Lo que estás buscando:

URLs de navegación facetada (p. ej., /shoes?colour=red&size=10&sort=price)
IDs de sesión añadidos a las URLs
Implementaciones de desplazamiento infinito o "cargar más" generando cadenas de parámetros únicas
URLs de paginación duplicadas (/page/1 y /) siendo rastreadas ambas
Páginas de resultados de búsqueda interna que no están bloqueadas

Cualquier sitio con más de 10,000 páginas con una navegación facetada activa casi seguramente está desperdiciando presupuesto de rastreo. Casi seguramente. La solución no es glamorosa, es un disallow de robots.txt en los patrones de parámetros, o idealmente, un manejo adecuado de parámetros de URL a través de GSC combinado con etiquetas canónicas en las páginas facetadas en sí.

A principios de 2021, Seahawk tenía un cliente minorista de muebles con 23,000 URLs de producto. Se veía bien en la superficie. Pero su análisis de registros mostró a Googlebot gastando el 61% de sus visitas de rastreo en combinaciones de filtros facetados que tenían demanda de búsqueda cero y contenido único cero. Sus páginas de producto reales se rastreaban aproximadamente una vez cada 14 días. Cambiamos los parámetros de faceta a noindex, follow y deshabilitamos los patrones combinatorios pesados en robots.txt. En seis semanas, la frecuencia de rastreo promedio en páginas de producto reales bajó a cada 3-4 días.

---

Auditoría de Indexación: ¿Qué hay realmente en el índice de Google?

site:yourdomain.com en Google te da una cifra aproximada. No confíes en ella para precisión, pero es una verificación rápida de cordura. Haz referencias cruzadas con el reporte de Cobertura de Índice de GSC.

La brecha entre "páginas que quieres indexadas" y "páginas que Google ha indexado" es donde está el dinero. En sitios grandes, esta brecha tiende a ser enorme y completamente evitable.

Los cuatro estados que te importan

Indexado, sin problemas, bien, déjalo así
Excluido: noindex, ¿intencional? Confirma que lo es
Excluido: rastreado, actualmente no indexado, este es el que debería alarmarte
Excluido: descubierto, no rastreado, problema de presupuesto de rastreo, vuelve a la sección uno

"Rastreado, actualmente no indexado" es la forma de Google de decir: llegué aquí, miré alrededor, y decidí que no vale la pena. Eso generalmente significa contenido delgado, contenido casi duplicado, o una señal de calidad tan débil que Google está tomando una decisión activa de saltarlo. En páginas de productos, esto ocurre frecuentemente con descripciones autogeneradas que son tres oraciones de relleno estándar. Google ha visto mil versiones de "Este producto está disponible en múltiples colores y se envía dentro de 3-5 días hábiles." No quiere otra más.

---

Etiquetas Canonical a Escala

Los canónicos son donde veo el daño más espectacular e infligido por uno mismo en sitios grandes. No porque sean complicados, no lo son, sino porque con 10,000+ páginas, un único error de plantilla se propaga instantáneamente a través de miles de URLs.

Los dos errores que veo constantemente:

Canónicos que se auto-referencian y que en realidad no apuntan al lugar correcto. Ejemplo clásico: una página de categoría paginada donde page/2 tiene un canonical apuntando a sí misma en lugar de page/1 o la categoría raíz. Multiplica eso por 400 páginas de categoría con 8 páginas de paginación cada una y tienes 2,800+ páginas con señales de canonical rotas.

Cadenas canónicas. La página A canonicaliza a la página B, que canonicaliza a la página C. Google sigue las cadenas canónicas, pero no es entusiasta al respecto. Tres saltos ya es demasiado. He visto sitios con cadenas de cinco saltos construidas durante años de migraciones y rediseños. La pestaña "Canonical" de Screaming Frog te lo mostrará directamente, expórtalo, filtra por cadenas.

Ejecuta una auditoría completa de canonicals en cada tipo de plantilla por separado. Páginas de productos. Páginas de categoría. Posts de blog. Archivos de etiquetas. Páginas de autores. Cada plantilla tiene su propio modo de fallo, y no los atraparás todos de una muestra al azar.

---

XML Sitemaps: Más Importante de Lo Que La Gente Cree

Con 10,000+ páginas, un único archivo de sitemap comienza a ser un problema. El límite de Google es 50,000 URLs o 50MB por archivo de sitemap, pero alcanzar ese límite no es el punto. El punto es que un sitemap monolítico con 40,000 URLs es difícil de monitorear y difícil de depurar cuando algo sale mal.

Divídelo. Usa un archivo de índice de sitemap que apunte a sitemaps segmentados:

Sitemap de productos
Sitemap de categorías
Sitemap de blog/editorial
Sitemap de páginas de marca o fabricante (si aplica)

¿Por qué importa la segmentación? Porque cuando algo se rompe, y se romperá, puedes aislar el problema. Si Google de repente no está recogiendo tus nuevas páginas de producto, verificas la fecha de rastreo del sitemap de productos en GSC y depuras desde ahí. Un sitemap monolítico no te deja dónde mirar.

Además: solo incluye en tu sitemap URLs que realmente quieras indexadas. Esto suena obvio. Te sorprendería. He auditado sitios donde el sitemap fue auto-generado por un plugin e incluía páginas de etiqueta, archivos de autor, páginas de adjunto, y media docena de otros tipos de URL que tenían noindex en ellos. Ruido sin sentido.

Valida tu sitemap con la herramienta de pruebas de resultados enriquecidos de Google si también estás tratando con datos estructurados, y verifica la entrega del sitemap sin procesar en un navegador para confirmar que tu servidor está devolviendo un 200, no una cadena de 301 o, que Dios nos libre, un 404.

---

Enlace Interno a Escala: El que Nadie Valora

PageRank sigue siendo real. Fluye a través de enlaces internos. En un sitio grande, la arquitectura de tu estrategia de enlaces internos decide efectivamente qué páginas tienen autoridad y cuáles son huérfanas muriendo silenciosamente en una esquina.

Seahawk tenía un cliente de publicación en 2023, aproximadamente 18,000 artículos en un vertical de noticias y estilo de vida. Sus páginas de categoría de embudo superior estaban recibiendo tráfico decente. Pero su contenido de archivo más profundo, material de 2015 a 2019 que todavía tenía demanda de búsqueda genuina, era casi invisible. No porque el contenido fuera malo. Porque nada enlazaba a él más. Habían rediseñado su navegación de categoría tres veces, y cada vez, el contenido más antiguo se enterraba un nivel más profundo.

La solución fue poco glamorosa: construimos una estrategia de enlaces internos programática usando un plugin WordPress personalizado que identificaba artículos con solapamiento de palabras clave relevantes e insertaba enlaces contextuales. La profundidad de clics en su contenido de archivo bajó de un promedio de 7.2 clics desde la página de inicio a 3.1. Las impresiones orgánicas en esas páginas subieron 28% durante el trimestre siguiente.

Aquí hay una lista rápida de verificación de enlaces internos para sitios grandes:

Ninguna página que quieras indexada debe estar a más de 3 clics de la página de inicio
Las páginas huérfanas (cero enlaces internos apuntando a ellas) deben tratarse como una emergencia, no como un elemento del backlog
La navegación por migas de pan cuenta como enlace interno, asegúrate de que esté implementada correctamente y use texto de anclaje real, no solo "Categoría > Subcategoría" con etiquetas genéricas
Busca páginas con solo un enlace interno apuntando a ellas, eso es apenas mejor que huérfanas

---

Datos Estructurados y Schema a Escala

Si tienes 10,000+ páginas de productos y ninguna tiene schema de Product con las propiedades Offer, Review y AggregateRating, estás dejando espacio valioso en los resultados de búsqueda.

Pero los datos estructurados a escala también introducen sus propios requisitos de auditoría. Un error de schema en una plantilla significa miles de instancias de markup inválido. Verifico datos estructurados con dos herramientas en combinación: Google's Rich Results Test para muestreo de URL individuales, y una extracción de schema a nivel de rastreo en Screaming Frog (Configuration → Custom Extraction → XPath para bloques JSON-LD) para obtener una vista general en todos los tipos de página.

Qué buscar:

Propiedades requeridas faltantes (especialmente price y priceCurrency en páginas de productos, estas son omisiones comunes)
Datos estructurados no coincidentes (schema dice un nombre de producto, el <title> dice otro)
Tipos de schema deprecados, DataFeedElement y algunos patrones microdata itemscope más antiguos vale la pena auditar y eliminar
Revisa el schema que viola las directrices de Google para fragmentos de reseñas, reseñas de primera parte marcadas como de terceros, o puntuaciones agregadas de muestras muy pequeñas

---

Velocidad de Página a Escala: No Audites Lo Que No Puedas Arreglar

Los Core Web Vitals importan. Pero hay algo que no se dice lo suficiente: auditar CWV en 10,000 páginas e intentar corregir cada URL individual es una tarea imposible. Se audita por template, luego se corrige por template.

Ejecuta una muestra de 20-30 URLs por tipo de template a través de PageSpeed Insights o WebPageTest. Si tus páginas de productos tienen un LCP promedio de 4.8s, ese es un problema a nivel de template. La solución está en tu pipeline de entrega de imágenes, tu CSS crítico, o tu tiempo de respuesta del servidor, no en tocar páginas individuales.

En sitios WordPress grandes específicamente (que es la mayoría de lo que hacemos en Seahawk), los culpables usuales a escala son:

Imágenes de productos WooCommerce sin optimizar servidas sin conversión a WebP
Demasiadas solicitudes HTTP de enqueues de plugins mal limitados en páginas que no necesitan esos scripts
Niveles de hosting que no han escalado con el crecimiento del sitio, un plan que funcionaba bien con 2,000 productos a menudo se ahoga con 12,000

Consigue tu hosting correcto primero. Todo lo demás es decoración.

---

Auditoría de Redirecciones: El Problema de la Deuda de Migración

Los sitios grandes acumulan cadenas de redirecciones de la misma manera que las casas viejas acumulan cableado deficiente. Cada rediseño, cada migración de dominio, cada reestructuración de URL agrega otra capa. Después de cuatro o cinco años, no es raro encontrar cadenas de redirecciones de cuatro o cinco saltos de profundidad.

Cada salto cuesta tiempo. Cada salto debilita la señal de PageRank que se está pasando. Y algunos 302s muy antiguos que fueron pensados para ser temporales siguen ahí causando daño muy permanente.

Mi proceso:

Rastrear con Screaming Frog, exportar todas las respuestas 3xx
Filtrar por cadenas (A → B → C, o más largas)
Actualizar todos los enlaces de origen para apuntar directamente al destino final
Confirmar que el destino final es un 200, no otra redirección
Marcar cualquier 302 que debería ser 301 y hacer que se cambien a nivel de servidor

También verificar: ¿alguna de tus URLs del mapa del sitio XML está devolviendo redirecciones? Porque ese es un caso común. Un mapa del sitio solo debe contener URLs que devuelvan 200s. Si tu mapa del sitio está lleno de 301s, le estás haciendo el trabajo a Google y lo estás haciendo mal.

---

FAQ

¿Cuánto tiempo tarda una auditoría técnica de SEO en un sitio con 10,000+ páginas?

Honestamente, depende de qué tan bien instrumentado esté el sitio. Si tienen Google Search Console configurada correctamente, logs del servidor accesibles, y Screaming Frog puede rastrear sin limitarse a sí mismo, una auditoría exhaustiva me toma aproximadamente 3-5 días hábiles solo en la fase de recopilación y análisis de datos. El reporte son otros 1-2 días. Cualquiera que te diga que puede hacer una auditoría significativa de un sitio grande en una tarde está haciendo muestreo, no auditoría.

¿Necesito auditar cada página individual o puedo trabajar con muestras?

Trabaja desde templates, no páginas individuales. Un sitio con 12,000 páginas de productos tiene quizá 4-6 templates de página significativas. Audita cada tipo de template exhaustivamente con una muestra representativa (mínimo 20-30 URLs), y tus hallazgos se aplicarán en todo el template. La excepción es la identificación de páginas huérfanas y el descubrimiento de cadenas de redirecciones, esas necesitan cobertura de crawl completo, no muestreo.

¿Cuál es la solución de mayor impacto en la mayoría de sitios grandes?

Presupuesto de crawl, nueve de cada diez veces. Específicamente, bloquear o canonicalizar URLs de navegación facetada que no tienen demanda de búsqueda y no tienen contenido único. He visto este arreglo único mover la aguja más que cualquier otro cambio en sitios de comercio electrónico con catálogos grandes. Es trabajo poco glamuroso, ediciones de robots.txt, etiquetas canonical, configuraciones de parámetros, pero a menudo produce resultados más rápidos que cualquier esfuerzo de contenido o construcción de enlaces.

¿Debo usar Screaming Frog o Sitebulb para sitios grandes?

Ambas son buenas. Yo uso Screaming Frog para la mayoría de mi trabajo de rastreo porque conozco sus formatos de exportación al detalle después de años de uso, y sus opciones de extracción personalizada son excelentes. Sitebulb tiene una capa de visualización genuinamente mejor y su reporte de auditoría es más legible para los clientes. Para sitios con más de 50,000 páginas, también podrías considerar DeepCrawl (ahora Lumar) para rastreo basado en la nube que no depende de la RAM de tu máquina local.

¿Cuál es el problema más comúnmente pasado por alto en auditorías de sitios grandes?

Profundidad de enlaces internos. Todos comprueban enlaces rotos y canónicos. Muy pocas personas identifican sistemáticamente páginas que están a seis o siete clics de la página de inicio y se preguntan por qué se espera que se posicionen para algo competitivo. La profundidad de clics es un indicador del rastreo y distribución de autoridad. Auditalo cada vez.

---

El SEO de sitios grandes no es una disciplina diferente, son los mismos principios a una escala donde las consecuencias de la negligencia se componen rápidamente. La lista de verificación anterior no se mantendrá estática. Cada sitio tiene su propio caos particular. Pero si trabajas a través del presupuesto de crawl, indexación, canonicals, sitemaps, enlaces internos, datos estructurados, velocidad de página, y redirecciones en ese orden aproximado, encontrarás el 80% de lo que está roto antes de haber mirado una sola palabra clave.

Comienza con la infraestructura. Los rankings vienen después.