Un cliente me llamó en 2022 — un operador de comercio electrónico con sede en Reino Unido con aproximadamente 14,000 páginas de producto — furioso porque había perdido el 34% de su tráfico orgánico en seis semanas. Sin penalización manual. Sin anuncio de algoritmo. Solo un colapso lento y silencioso. Ejecutamos un rastreo completo con Screaming Frog y encontramos el problema en 90 minutos: su paginación había estado generando automáticamente miles de URLs casi duplicadas, Google había rastreado todas ellas en lugar de las páginas de producto reales, y su presupuesto de rastreo se había agotado por completo. Desperdiciado. Cada mes.
Punto clave: Auditar un sitio de 10,000 páginas no es simplemente una auditoría de sitio pequeño a mayor escala: los modos de fallo son presupuesto de rastreo, plantillas e indexación a escala, y la lista de verificación cambia en consecuencia.Auditing a 10,000-page site is not a bigger small-site audit: the failure modes are crawl budget, templates, and indexation at scale, and the checklist changes accordingly.
Eso es lo que ocurre con el SEO de sitios grandes. Los problemas no son más difíciles de entender — solo tienen consecuencias catastróficamente mayores. Una etiqueta canónica mal configurada en un sitio de 20 páginas es molesta. En un sitio de 14,000 páginas, puede estrangular silenciosamente todo tu índice.
Esta es la lista de verificación de auditoría que utilizo en Seahawk Media cuando un sitio supera la marca de 10,000 páginas. Sin un orden particular de importancia — porque cada sitio grande tiene su propia jerarquía de desastres.Seahawk Media when a site crosses the 10,000-page mark. In no particular order of importance -- because every large site has its own hierarchy of disasters.
---
Comienza con el Presupuesto de Rastreo — No con Palabras Clave
La mayoría de las personas comienzan una auditoría de sitio grande mirando rankings. Orden incorrecto. Completamente. Los rankings están aguas abajo de la indexación, y la indexación está aguas abajo del presupuesto de rastreo. Corrige el orden de las operaciones.
Presupuesto de rastreo, para quien necesite la versión clara: es la cantidad de URLs que Googlebot rastreará en tu sitio dentro de un período determinado. La documentación propia de Google sobre presupuesto de rastreo realmente vale la pena leer aquí — son bastante específicos sobre qué lo desperdicia.Google's own documentation on crawl budget is genuinely worth reading here -- they're quite specific about what wastes it.
¿Qué está consumiendo tu presupuesto?
Extrae tus registros del servidor primero. No datos de GSC — registros del servidor reales. Uso GoAccess para análisis rápido en archivos de registro grandes porque maneja volumen sin quejarse. Lo que estás buscando:GoAccess for quick analysis on large log files because it handles volume without crying. What you're looking for:
- URLs de navegación facetada (p. ej., /shoes?colour=red&size=10&sort=price)
/shoes?colour=red&size=10&sort=price) - IDs de sesión añadidos a las URLs
- Implementaciones de desplazamiento infinito o "cargar más" generando cadenas de parámetros únicas
- URLs de paginación duplicadas (/page/1 y /) siendo rastreadas ambas
/page/1and/) both being crawled - Páginas de resultados de búsqueda interna que no están bloqueadas
Cualquier sitio con más de 10,000 páginas con navegación facetada activa casi seguramente está desperdiciando presupuesto de rastreo. Casi con certeza. La solución no es glamorosa — es un disallow en robots.txt en los patrones de parámetros, o idealmente, manejo adecuado de parámetros de URL a través de GSC combinado con etiquetas canónicas en las páginas facetadas.proper URL parameter handling via GSC combined with canonical tags on the faceted pages themselves.
A principios de 2021, Seahawk tenía un cliente minorista de muebles con 23,000 URLs de producto. Se veía bien en la superficie. Pero su análisis de registros mostró a Googlebot gastando el 61% de sus visitas de rastreo en combinaciones de filtros facetados que tenían demanda de búsqueda cero y contenido único cero. Sus páginas de producto reales se rastreaban aproximadamente una vez cada 14 días. Cambiamos los parámetros de faceta a noindex, follow y deshabilitamos los patrones combinatorios pesados en robots.txt. En seis semanas, la frecuencia de rastreo promedio en páginas de producto reales bajó a cada 3-4 días.noindex, follow and disallowed the heavy combinatorial patterns in robots.txt. Within six weeks, average crawl frequency on real product pages dropped to every 3-4 days.
---
Auditoría de Indexación: ¿Qué hay realmente en el índice de Google?
site:yourdomain.com en Google te da una cifra aproximada. No confíes en ella para precisión, pero es una verificación rápida de cordura. Haz referencias cruzadas con el reporte de Cobertura de Índice de GSC. in Google gives you a rough figure. Don't rely on it for precision, but it's a quick sanity check. Cross-reference with GSC's Index Coverage report.
La brecha entre "páginas que quieres indexadas" y "páginas que Google ha indexado" es donde está el dinero. En sitios grandes, esta brecha tiende a ser enorme y completamente evitable.
Los cuatro estados que te importan
- Indexado, sin problemas — está bien, déjalo así -- fine, leave it
- Excluido: noindex -- ¿intencional? Confirma que lo es -- intentional? Confirm it is
- Excluido: rastreado, actualmente no indexado -- este es el que debería preocuparte -- this is the one that should alarm you
- Excluido: descubierto, no rastreado -- problema de presupuesto de rastreo, vuelve a la sección uno -- crawl budget problem, come back up to section one
"Rastreado, actualmente no indexado" es la forma de Google de decir: llegué aquí, miré alrededor, y decidí que no vale la pena. Eso generalmente significa contenido delgado, contenido casi duplicado, o una señal de calidad tan débil que Google está tomando una decisión activa de saltarlo. En páginas de productos, esto ocurre frecuentemente con descripciones autogeneradas que son tres oraciones de relleno estándar. Google ha visto mil versiones de "Este producto está disponible en múltiples colores y se envía dentro de 3-5 días hábiles." No quiere otra más.I got here, I looked around, and I decided not to bother.That usually means thin content, near-duplicate content, or a quality signal so weak Google is making an active choice to skip it. On product pages, this often happens with auto-generated descriptions that are three sentences of boilerplate. Google has seen a thousand versions of "This product is available in multiple colours and ships within 3-5 working days." It doesn't want another one.
---
Etiquetas Canonical a Escala
Los canónicos son donde veo el daño más espectacular que se auto inflige en sitios grandes. No porque sean complicados -- no lo son -- sino porque con 10,000+ páginas, un único error de plantilla se propaga instantáneamente a través de miles de URLs.
Los dos errores que veo constantemente:
Canónicos que se auto-referencian y que en realidad no apuntan al lugar correcto. Ejemplo clásico: una página de categoría paginada donde page/2 tiene un canonical apuntando a sí misma en lugar de page/1 o la categoría raíz. Multiplica eso por 400 páginas de categoría con 8 páginas de paginación cada una y tienes 2,800+ páginas con señales de canonical rotas.Classic example: a paginated category page where page/2 has a canonical pointing to itself instead of page/1 or the root category. Multiply that by 400 category pages with 8 pages of pagination each and you've got 2,800+ pages with broken canonical signals.
Cadenas canónicas. La Página A se canonicaliza a la Página B, que se canonicaliza a la Página C. Google sigue cadenas canónicas, pero no está entusiasmado con ellas. Tres saltos ya es demasiado. He visto sitios con cadenas de cinco saltos acumuladas a lo largo de años de migraciones y rediseños. La pestaña "Canonical" de Screaming Frog te lo mostrará directamente -- exporta, filtra por cadenas.Page A canonicalises to Page B, which canonicalises to Page C. Google follows canonical chains, but it's not enthusiastic about them. Three hops is already pushing it. I've seen sites with five-hop chains built up over years of migrations and redesigns. Screaming Frog's "Canonical" tab will show you this directly -- export it, filter for chains.
Ejecuta una auditoría completa de canonicals en cada tipo de plantilla por separado. Páginas de productos. Páginas de categoría. Posts de blog. Archivos de etiquetas. Páginas de autores. Cada plantilla tiene su propio modo de fallo, y no los atraparás todos de una muestra al azar.
---
XML Sitemaps: Más Importante de Lo Que La Gente Cree
Con 10,000+ páginas, un único archivo de sitemap comienza a convertirse en un problema. El límite de Google es 50,000 URLs o 50MB por archivo de sitemap -- pero alcanzar ese límite no es el punto. El punto es que un sitemap monolítico con 40,000 URLs es difícil de monitorear y difícil de depurar cuando algo falla.
Divídelo. Usa un archivo de índice de sitemap que apunte a sitemaps segmentados:
- Sitemap de productos
- Sitemap de categorías
- Sitemap de blog/editorial
- Sitemap de páginas de marca o fabricante (si aplica)
¿Por qué importa la segmentación? Porque cuando algo falla -- y fallará -- puedes aislar el problema. Si Google de repente no está recogiendo tus nuevas páginas de productos, verificas la fecha de rastreo del sitemap de productos en GSC y depuras desde ahí. Un sitemap monolítico no te da ningún lugar donde buscar.
Además: solo incluye en tu sitemap URLs que realmente quieras indexadas. Esto suena obvio. Te sorprendería. He auditado sitios donde el sitemap fue auto-generado por un plugin e incluía páginas de etiqueta, archivos de autor, páginas de adjunto, y media docena de otros tipos de URL que tenían noindex en ellos. Ruido sin sentido.only include URLs you actually want indexed in your sitemap.This sounds obvious. You'd be surprised. I've audited sites where the sitemap was auto-generated by a plugin and included tag pages, author archives, attachment pages, and half-a-dozen other URL types that had noindex on them. Pointless noise.
Valida tu sitemap con el Rich Results Test de Google si también estás lidiando con datos estructurados -- y verifica la entrega sin procesar del sitemap en un navegador para confirmar que tu servidor está retornando un 200, no una cadena de 301 o, que Dios te libre, un 404.Google's Rich Results Test if you're also dealing with structured data -- and check raw sitemap delivery in a browser to confirm your server is returning a 200, not a 301 chain or, god forbid, a 404.
---
Enlace Interno a Escala: El que Nadie Valora
PageRank sigue siendo real. Fluye a través de enlaces internos. En un sitio grande, la arquitectura de tu estrategia de enlaces internos decide efectivamente qué páginas tienen autoridad y cuáles son huérfanas muriendo silenciosamente en una esquina.
Seahawk tenía un cliente de publicaciones en 2023 -- aproximadamente 18,000 artículos en un vertical de noticias y estilo de vida. Sus páginas de categoría del primer nivel estaban recibiendo tráfico decente. Pero su contenido de archivo más profundo -- cosas de 2015 a 2019 que aún tenían demanda genuina de búsqueda -- era casi invisible. No porque el contenido fuera malo. Porque nada enlazaba a él. Habían rediseñado su navegación de categoría tres veces, y cada vez, el contenido más antiguo se enterraba un nivel más profundo.
La solución fue poco glamorosa: construimos una estrategia de enlaces internos programática usando un plugin WordPress personalizado que identificaba artículos con solapamiento de palabras clave relevantes e insertaba enlaces contextuales. La profundidad de clics en su contenido de archivo bajó de un promedio de 7.2 clics desde la página de inicio a 3.1. Las impresiones orgánicas en esas páginas subieron 28% durante el trimestre siguiente.WordPress plugin that identified articles with relevant keyword overlap and inserted contextual links. Click depth on their archival content dropped from an average of 7.2 clicks from the homepage to 3.1. Organic impressions on those pages rose 28% over the following quarter.
Aquí hay una lista rápida de verificación de enlaces internos para sitios grandes:
- Ninguna página que quieras indexada debe estar a más de 3 clics de la página de inicio
- Las páginas huérfanas (cero enlaces internos apuntando a ellas) deben tratarse como una emergencia, no como un elemento del backlog
- La navegación por migas de pan cuenta como enlace interno — asegúrate de que esté implementada correctamente y use texto de anclaje real, no solo "Categoría > Subcategoría" con etiquetas genéricas
- Busca páginas con solo un enlace interno apuntando hacia ellas — eso es apenas mejor que una página huérfana
---
Datos Estructurados y Schema a Escala
Si tienes 10,000+ páginas de productos y ninguna tiene schema de Product con las propiedades Offer, Review y AggregateRating, estás dejando espacio valioso en los resultados de búsqueda.Product schema with Offer,Review, and AggregateRating properties, you're leaving SERP real estate on the table.
Pero los datos estructurados a escala también introducen sus propios requisitos de auditoría. Un error de schema en una plantilla significa miles de instancias de markup inválido. Verifico datos estructurados con dos herramientas en combinación: Google's Rich Results Test para muestreo de URL individuales, y una extracción de schema a nivel de rastreo en Screaming Frog (Configuration → Custom Extraction → XPath para bloques JSON-LD) para obtener una vista general en todos los tipos de página.
Qué buscar:
- Propiedades requeridas faltantes (especialmente price y priceCurrency en páginas de Producto — estas son omisiones comunes)
priceandpriceCurrencyon Product pages -- these are common omissions) - Datos estructurados no coincidentes (schema dice un nombre de producto, el <title> dice otro)
<title>says another) - Tipos de schema deprecados — DataFeedElement y algunos patrones microdata itemscope más antiguos vale la pena auditar
DataFeedElementand some olderitemscopemicrodata patterns are worth auditing out - Revisa schema que viola las directrices de Google para fragmentos de reseñas — reseñas de primera parte marcadas como de terceros, o puntuaciones agregadas de tamaños de muestra muy pequeñosGoogle's review snippet guidelines -- first-party reviews marked up as third-party, or aggregated scores from tiny sample sizes
---
Velocidad de Página a Escala: No Audites Lo Que No Puedas Arreglar
Los Core Web Vitals importan. Pero hay algo que no se dice lo suficiente: auditar CWV en 10,000 páginas e intentar corregir cada URL individual es una tarea imposible. Se audita por template, luego se corrige por template. matter. But here's the thing that doesn't get said enough: auditing CWV across 10,000 pages and trying to fix every individual URL is a fool's errand. You audit by template, then fix by template.
Ejecuta una muestra — 20-30 URLs por tipo de plantilla — a través de PageSpeed Insights o WebPageTest. Si tus páginas de producto tienen un LCP promedio de 4.8s, ese es un problema a nivel de plantilla. La solución está en tu pipeline de entrega de imágenes, tu CSS crítico, o tu tiempo de respuesta del servidor — no en tocar páginas individuales.WebPageTest. If your product pages have an average LCP of 4.8s, that's a template-level problem. The fix is in your image delivery pipeline, your critical CSS, or your server response time -- not in touching individual pages.
En sitios WordPress grandes específicamente (que es la mayoría de lo que hacemos en Seahawk), los culpables usuales a escala son:
- Imágenes de productos WooCommerce sin optimizar servidas sin conversión a WebP
- Demasiadas solicitudes HTTP de enqueues de plugins mal limitados en páginas que no necesitan esos scripts
- Niveles de hosting que no han escalado con el crecimiento del sitio — un plan que funcionaba bien con 2,000 productos frecuentemente se ahoga con 12,000
Consigue tu hosting correcto primero. Todo lo demás es decoración.
---
Auditoría de Redirecciones: El Problema de la Deuda de Migración
Los sitios grandes acumulan cadenas de redirecciones de la misma manera que las casas viejas acumulan cableado deficiente. Cada rediseño, cada migración de dominio, cada reestructuración de URL agrega otra capa. Después de cuatro o cinco años, no es raro encontrar cadenas de redirecciones de cuatro o cinco saltos de profundidad.
Cada salto cuesta tiempo. Cada salto debilita la señal de PageRank que se está pasando. Y algunos 302s muy antiguos que fueron pensados para ser temporales siguen ahí causando daño muy permanente.
Mi proceso:
- Rastrear con Screaming Frog, exportar todas las respuestas 3xx
- Filtrar por cadenas (A → B → C, o más largas)
- Actualizar todos los enlaces de origen para apuntar directamente al destino final
- Confirmar que el destino final es un 200, no otra redirección
- Marcar cualquier 302 que debería ser 301 y hacer que se cambien a nivel de servidor
También verificar: ¿alguna de tus URLs del mapa del sitio XML está devolviendo redirecciones? Porque ese es un caso común. Un mapa del sitio solo debe contener URLs que devuelvan 200s. Si tu mapa del sitio está lleno de 301s, le estás haciendo el trabajo a Google y lo estás haciendo mal.
---
FAQ
¿Cuánto tiempo tarda una auditoría técnica de SEO en un sitio con 10,000+ páginas?
Honestamente, depende de qué tan bien instrumentado esté el sitio. Si tienen Google Search Console configurada correctamente, logs del servidor accesibles, y Screaming Frog puede rastrear sin limitarse a sí mismo, una auditoría exhaustiva me toma aproximadamente 3-5 días hábiles solo en la fase de recopilación y análisis de datos. El reporte son otros 1-2 días. Cualquiera que te diga que puede hacer una auditoría significativa de un sitio grande en una tarde está haciendo muestreo, no auditoría.
¿Necesito auditar cada página individual o puedo trabajar con muestras?
Trabaja desde plantillas, no desde páginas individuales. Un sitio con 12,000 páginas de producto tiene quizás 4-6 plantillas de página significativas. Audita cada tipo de plantilla exhaustivamente con una muestra representativa (mínimo 20-30 URLs), y tus hallazgos se aplicarán en toda la plantilla. La excepción es la identificación de páginas huérfanas y el descubrimiento de cadenas de redirección — esos necesitan cobertura de rastreo completo, no muestreo.
¿Cuál es la solución de mayor impacto en la mayoría de sitios grandes?
Presupuesto de rastreo, nueve de cada diez veces. Específicamente, bloquear o canonicalizar URLs de navegación facetada que no tienen demanda de búsqueda y sin contenido único. He visto este arreglo individual mover la aguja más que cualquier otro cambio en sitios de comercio electrónico con catálogos grandes. Es trabajo poco glamuroso — ediciones de robots.txt, etiquetas canónicas, configuraciones de parámetros — pero frecuentemente produce resultados más rápidos que cualquier esfuerzo de contenido o construcción de enlaces.
¿Debo usar Screaming Frog o Sitebulb para sitios grandes?
Ambas son buenas. Yo uso Screaming Frog para la mayoría de mi trabajo de rastreo porque conozco sus formatos de exportación al detalle después de años de uso, y sus opciones de extracción personalizada son excelentes. Sitebulb tiene una capa de visualización genuinamente mejor y su reporte de auditoría es más legible para los clientes. Para sitios con más de 50,000 páginas, también podrías considerar DeepCrawl (ahora Lumar) para rastreo basado en la nube que no depende de la RAM de tu máquina local.DeepCrawl (now Lumar)for cloud-based crawling that doesn't depend on your local machine's RAM.
¿Cuál es el problema más comúnmente pasado por alto en auditorías de sitios grandes?
Profundidad de enlaces internos. Todos comprueban enlaces rotos y canónicos. Muy pocas personas identifican sistemáticamente páginas que están a seis o siete clics de la página de inicio y se preguntan por qué se espera que se posicionen para algo competitivo. La profundidad de clics es un indicador del rastreo y distribución de autoridad. Auditalo cada vez.
---
El SEO para sitios grandes no es una disciplina diferente — son los mismos principios a una escala donde las consecuencias de la negligencia se acumulan rápidamente. La lista de verificación anterior no permanecerá estática. Cada sitio tiene su propio caos particular. Pero si trabajas a través del presupuesto de rastreo, indexación, canónicos, mapas de sitio, enlaces internos, datos estructurados, velocidad de página y redirecciones en ese orden aproximado — encontrarás el 80% de lo que está roto antes de haber mirado una sola palabra clave.
Comienza con la infraestructura. Los rankings vienen después.
