Alrededor de la página 47,000 de un informe de rastreo, consideré genuinamente un cambio de carrera. El sitio —un gran catálogo de comercio electrónico con sede en el Reino Unido con alrededor de 91,000 URLs indexables— se había mantenido en aproximadamente 34,000 páginas indexadas durante seis meses. Sin crecer. El cliente estaba convencido de que algo estaba "roto". Yo les dije que nada estaba roto. Tenía medio razón.
Punto clave: En un sitio de 91,000 páginas, Googlebot rastrea lo que tu arquitectura le indica: la estructura de enlaces internos, la disciplina del mapa del sitio y eliminar el contenido innecesario determinan qué páginas se indexan.On a 91,000-page site Googlebot crawls what your architecture tells it to: internal linking, sitemap discipline, and killing waste decide which pages get indexed.
Ese proyecto cambió completamente mi forma de pensar sobre el presupuesto de rastreo. No la teoría —había leído la documentación de Google, había visto los videos de Search Central, sabía qué era el presupuesto de rastreo. Pero conocerlo y realmente manejarlo a escala son dos cosas radicalmente diferentes. Lo que sigue es todo lo que me diría a mí mismo si pudiera volver a ese martes por la mañana en marzo de 2022 cuando consulté por primera vez las estadísticas de rastreo en Google Search Console y sentí que se me caía el alma.was. But knowing it and actually managing it at scale are two wildly different things. What follows is everything I'd tell myself if I could go back to that Tuesday morning in March 2022 when I first pulled the crawl stats in Google Search Console and felt my stomach drop.
Qué significa realmente el presupuesto de rastreo (y qué no)
Aquí está la cosa que confunde a la gente constantemente: presupuesto de rastreo no significa "la cantidad de páginas que Google alguna vez indexará para ti". Significa aproximadamente la cantidad de URLs que Googlebot traerá dentro de una ventana de rastreo dada, que Google mismo define como una combinación de límite de velocidad de rastreo y demanda de rastreo.fetch within a given crawl window, which Google itself defines as a combination of crawl rate limit and crawl demand.
El límite de velocidad de rastreo es qué tan rápido puede rastrear Googlebot sin sobrecargar tu servidor. La demanda de rastreo es cuánto quiere rastrear Google —impulsado por qué tan populares son tus URLs y con qué frecuencia cambian. Multiplica esos dos factores juntos y tienes una idea aproximada de cuánta atención de rastreo recibe tu sitio.wants to crawl -- driven by how popular your URLs are and how often they change. Multiply those two levers together and you have a rough sense of how much crawling attention your site gets.
Para la mayoría de sitios con menos de 1,000 páginas, esto es irrelevante. Google rastreará todo. Pero una vez que estás en decenas de miles —y absolutamente una vez que superas seis cifras— Googlebot comienza a hacer selecciones. Priorizará. Ignorará. Y si no lo has configurado para priorizar lo correcto, contentamente pasará su tiempo rastreando tus URLs con parámetro de ID de sesión y tus páginas de facetas filtradas mientras tus nuevos lanzamientos de productos pasan desapercibidos durante semanas.
Eso no es hipotético. Eso es lo que sucedió en el proyecto de 91,000 páginas.
El Problema de Navegación Facetada que Nadie Me Advirtió
La navegación facetada es el mayor asesino del presupuesto de rastreo que he encontrado en sitios grandes. Consistentemente. Cada vez.
El sitio del catálogo tenía un sistema de filtros facetados —color, tamaño, material, marca— sin ningún manejo de parámetros de URL configurado en ningún lado. Cada combinación de filtro generaba una URL única. Podías seleccionar "azul", "mediano", "algodón" y "MarcaX" y obtener /shop?colour=blue&size=medium&material=cotton&brand=brandx. Luego alguien cambió el orden y obtuviste /shop?size=medium&colour=blue&brand=brandx&material=cotton. URL diferente, contenido idéntico./shop?colour=blue&size=medium&material=cotton&brand=brandx. Then someone flipped the order and got/shop?size=medium&colour=blue&brand=brandx&material=cotton. Different URL, identical content.
Ejecuté un rastreo con Screaming Frog (versión 18, que maneja mucho mejor la renderización de JavaScript que las versiones anteriores) y encontré más de 200,000 URLs siendo generadas solo por el sistema de filtros. Googlebot estaba visitando estas. Constantemente. Mientras miles de páginas de productos legítimas permanecían sin indexarse.
La Solución Que Realmente Funcionó
Abordamos esto en dos etapas. Primero, configuré el manejo de parámetros de URL en Google Search Console —marcando los parámetros de filtro como "No cambia el contenido de la página" para indicarle a Googlebot que los consolidara. Segundo, y más importante, el equipo de desarrollo implementó una estrategia canónica adecuada, apuntando todas las combinaciones de filtros de vuelta a la página de categoría base. También agregamos noindex a páginas filtradas de bajo valor que no podían canificarse de manera práctica.noindex to low-value filtered pages that couldn't practically be canonicalised.
En aproximadamente ocho semanas, el recuento de páginas indexadas comenzó a aumentar. No explosivamente —de manera constante. Lo cual es en realidad lo que quieres. Un pico repentino en páginas indexadas a veces puede desencadenar una reevaluación de Google en lugar de una victoria limpia.
Estadísticas de Rastreo en Search Console: Los Datos que la Mayoría de Personas Ignora
He auditado cerca de 80 sitios en los últimos tres años específicamente por problemas de rastreo. Quizás el 15% de las personas que me entregaron esos sitios había mirado alguna vez el reporte de Estadísticas de Rastreo en Search Console. Ese número debería ser mucho más alto.Crawl Stats report in Search Console. That number should be much higher.
El informe de Estadísticas de rastreo te muestra solicitudes de rastreo promedio por día, tiempo de respuesta promedio y —crucialmente— lo que Googlebot está realmente rastreando desglosado por propósito (descubrimiento vs. actualización). Si tus rastreos de "actualización" están dominando y los rastreos de descubrimiento son mínimos, Google está gastando su tiempo revisando páginas que ya conoce. No encontrando otras nuevas. Esa es una señal de que tu vinculación interna es probablemente superficial o tu sitemap XML no hace nada útil.
En el proyecto de 91,000 páginas, estábamos en alrededor de 2,400 solicitudes de rastreo por día. Para un sitio de ese tamaño, eso significa que Google teóricamente tomaría alrededor de 38 días para rastrear todo una vez —asumiendo que cada solicitud llegara a una página única y útil. No era así. Aproximadamente el 40% de las solicitudes de rastreo estaban llegando a cadenas de redirección o duplicados inflados con parámetros.
El Tiempo de Respuesta Promedio Importa Más de lo Que Crees
Algo que subestimé temprano en mi carrera: Googlebot es genuinamente sensible a la velocidad del servidor. No de una manera de ranking (bueno, no directamente), sino en una manera de disposición de rastreo. Los servidores lentos hacen que Googlebot retroceda. Google reducirá su tasa de rastreo para evitar estresar un servidor que está teniendo dificultades.
El sitio del catálogo tenía un Time to First Byte alrededor de 1.8 segundos en páginas de categoría durante el tráfico pico. Después de que el cliente se mudó de hosting compartido a un VPS dedicado con caché apropiado (WP Rocket para caché de páginas, Redis para caché de objetos), TTFB bajó a menos de 400ms. Las solicitudes de rastreo por día subieron notoriamente durante las seis semanas siguientes. Correlación, obviamente, pero he visto este patrón demasiadas veces como para descartarlo.
Sitemaps XML: Deja de Tratarlos Como una Formalidad
La mayoría de sitemaps que heredé están mal. No dramáticamente mal —solo silenciosa, inútilmente mal.
Problemas comunes que veo:
- Páginas en el sitemap que devuelven 404s o redirecciones 301
- Páginas sin indexar incluidas en el mapa del sitio (esto confunde a Googlebot -- estás diciendo simultáneamente "rastreá esto" y "no indexés esto")
Fechas <lastmod> que son estáticas o simplemente incorrectasdates that are static or just wrong- Sitemaps con 70,000+ URLs en un único archivo (el límite es 50,000 por archivo, y los archivos grandes ralentizan el procesamiento)
- Sin archivo de índice de sitemap, solo un blob XML monolítico
En el proyecto del catálogo grande, el mapa del sitio tenía 91,000 URLs en un solo archivo. También estaba incluyendo cada URL filtrada que alguna vez se había generado -- más de 40,000 de las cuales no estaban indexadas. Googlebot estaba procesando este archivo enorme y luego descubría que la mayoría de las URLs no deberían ser rastreadas de todas formas. Señal desperdiciada en ambos extremos.
Reconstruimos la arquitectura del sitemap como un índice de sitemap apropiado apuntando a sitemaps secundarios segmentados: uno para páginas de categoría principal, uno para páginas de producto (dividido en dos archivos dada la volumen), uno para contenido editorial. Cada archivo bajo 40,000 URLs. Valores <lastmod> generados dinámicamente a partir de la fecha de última modificación real en la base de datos. Sin páginas sin indexar, sin redirecciones.<lastmod>values dynamically generated from the actual last-modified date in the database. No noindexed pages, no redirects.
Los datos de Bing Webmaster Tools (sí, vale la pena verificar -- Bing a veces te mostrará patrones de comportamiento de rastreo que sugieren problemas estructurales que Google también está experimentando) mostraron que el tiempo de procesamiento del mapa del sitio disminuyó más del 60%.
Enlazado Interno: La Palanca Que Realmente Controlas
Aquí hay algo que realmente no aprecié hasta que Seahawk tomó un sitio de contenido grande -- aproximadamente 65,000 artículos -- para un cliente de medios allá por 2020. El sitio tenía problemas de presupuesto de rastreo a pesar de tener un mapa del sitio bien formado y una estructura de URL limpia. El problema era la profundidad de los enlaces internos. Miles de artículos estaban efectivamente huérfanos -- sin enlaces internos que apuntaran a ellos desde ninguna página rastreada.
Googlebot no solo sigue sitemaps. Sigue enlaces. Si una página solo es descubrible a través de una entrada de sitemap y tiene cero enlaces internos, se deprioritiza. Eso no está documentado oficialmente en términos claros, pero la orientación de Google sobre enlaces internos deja claro que los enlaces rastreables desde páginas importantes son cómo Googlebot prioriza el descubrimiento.only follow sitemaps. It follows links. If a page is only discoverable through a sitemap entry and has zero internal links, it gets deprioritised. That's not officially documented in crisp terms, but Google's own guidance on internal linking makes clear that crawlable links from important pages are how Googlebot prioritises discovery.
Para ese cliente de medios, auditamos enlaces internos usando la herramienta Site Audit de Ahrefs e identificamos alrededor de 12,000 artículos con tres o menos enlaces internos apuntando hacia ellos. Construimos un bloque automático de "artículos relacionados" en el CMS (WordPress, bloque Gutenberg personalizado) que extraía contenido contextualmente similar. En el trimestre siguiente, las páginas indexadas en ese sitio pasaron de 41,000 a más de 58,000. Misma autoridad de dominio. Misma tasa de producción de contenido. Solo un mejor enlazado interno.WordPress, custom Gutenberg block) that pulled contextually similar content. Over the following quarter, indexed pages on that site climbed from 41,000 to over 58,000. Same domain authority. Same content production rate. Just better internal linking.
El enfoque numerado que ahora uso en cada auditoría de sitio grande:
- Ejecuta un rastreo completo de Screaming Frog y exporta datos de enlaces internos
- Identifica cada página con menos de tres enlaces internos entrantes
- Haz referencias cruzadas con páginas que están bien enlazadas -- encuentra clústeres temáticosare well-linked -- find topical clusters
- Construye enlaces internos contextuales desde páginas de alto tráfico hacia las páginas con poco enlazado
- Valida en la herramienta Inspección de URL de Search Console que las páginas recién enlazadas pasen de "Descubierta -- actualmente no indexada" a "Rastreada"
Ese estado "Descubierta -- actualmente no indexada" en Search Console es tu canario. Significa que Google sabe que la página existe pero no ha priorizado su obtención. Mejorar los enlaces internos es generalmente la forma más rápida de resolverlo.
Análisis de archivos de registro: Incómodo pero necesario
Seré honesto -- el análisis de archivos de registro es algo que evité durante años. Parecía una profundidad innecesaria cuando las herramientas de rastreo te daban la mayor parte de lo que necesitabas. Me equivocaba.
Los archivos de registro te dicen lo que Googlebot realmente hizo, no lo que inferís que hizo a partir de tu mapa del sitio o herramienta de rastreo. En un proyecto -- una empresa SaaS con aproximadamente 8,000 páginas de documentación de productos -- el análisis de registros reveló que Googlebot estaba dedicando casi el 30% de su tiempo de rastreo a URLs adyacentes a /wp-admin/ y activos del lado del administrador que deberían haber sido bloqueados en robots.txt. Nadie lo había configurado correctamente. Páginas de documentación que no habían sido rastreadas en cuatro meses.actually did, not what you infer it did from your sitemap or crawl tool. On one project -- a SaaS company with about 8,000 product documentation pages -- log analysis revealed Googlebot was spending nearly 30% of its crawl time on/wp-admin/adjacent URLs and admin-side assets that should have been blocked in robots.txt. Nobody had set that up properly. Documentation pages that hadn't been crawled in four months.
Screaming Frog's Log File Analyser es la herramienta que uso. No es glamorosa pero es confiable. Importa tus registros del servidor, filtra por agente de usuario Googlebot y ordena por frecuencia de visitas de URL. Los patrones que emergen casi siempre son esclarecedores -- e casi siempre incluyen algo que se está rastreando que no debería estarlo. is the tool I use. It's not glamorous but it's reliable. Import your server logs, filter by Googlebot user agent, and sort by URL hit frequency. The patterns that emerge are almost always illuminating -- and almost always include something crawling that shouldn't be.
Cuándo Preocuparse y Cuándo Dejar Pasar
No todo sitio grande necesita gestión agresiva del presupuesto de rastreo. Si tienes 10,000 páginas y 9,800 están indexadas, no empieces a mover palancas. Crearás problemas donde no los hay.
La gestión del presupuesto de rastreo realmente vale tu tiempo cuando:
- Tienes más de ~15,000 páginas indexables
- Tu conteo de indexadas se ha estancado a pesar de que se agregue contenido nuevo
- Crawl Stats muestra solicitudes de rastreo promedio muy por debajo de lo que esperarías para tu volumen de páginas
- Ves miles de URLs en estado "Descubierto -- actualmente no indexado" o "Rastreado -- actualmente no indexado"
Ese segundo estado -- "Rastreado -- actualmente no indexado" -- es diferente y vale la pena separarlo. Significa que Google obtuvo la página y decidió no indexarla, generalmente por contenido delgado o problemas de duplicación cercana. Ninguna cantidad de optimización de presupuesto de rastreo soluciona un problema de calidad.
---
FAQ
¿El presupuesto de rastreo afecta los sitios pequeños?
Raramente de manera significativa. Si tu sitio tiene menos de 1,000 páginas y carga rápido, Google casi seguramente rastreará todo sin importar qué. El presupuesto de rastreo se convierte en una preocupación genuina a escala -- típicamente por encima de 10,000 a 15,000 páginas, o en sitios donde una gran parte de las URLs se generan dinámicamente.
¿Enviar un sitemap directamente solucionará los problemas de presupuesto de rastreo?
No. Un mapa del sitio ayuda con el descubrimiento -- le dice a Google que esas URLs existen. Pero si tu sitio tiene problemas estructurales (spam de navegación facetada, respuesta lenta del servidor, enlaces internos superficiales), un mapa del sitio no anulará esas señales. Piensa en un mapa del sitio como una sugerencia, no como un comando.
¿Cómo verifico si Googlebot está desperdiciando rastreo en URLs de basura?
Comienza con el reporte de Estadísticas de rastreo en Google Search Console y observa qué tipos de URLs están recibiendo más solicitudes. Luego haz una referencia cruzada con un rastreo de Screaming Frog para identificar patrones de URLs de alto volumen que sean duplicados, noindexados, o de bajo valor. El análisis de archivos de registro te dará la imagen más precisa si tienes acceso a los registros del servidor.
¿Debo usar `noindex` o `robots.txt disallow` para ahorrar presupuesto de rastreo?
Herramientas diferentes para trabajos diferentes. Disallow en robots.txt impide que Googlebot obtenga la página en absoluto -- ahorrando presupuesto de rastreo pero significando que Google no puede leer ninguna señal en esa página. Noindex permite que Google obtenga la página pero le dice que no incluya la página en los resultados de búsqueda. Para el presupuesto de rastreo específicamente, disallow es más efectivo en URLs realmente inútiles (rutas de administración, resultados de búsqueda interna). Para páginas de faceta filtrada donde quieres que Google entienda el contenido pero no lo indexe, noindex con una canónica es generalmente la llamada correcta.Disallow in robots.txt prevents Googlebot from fetching the page at all -- saving crawl budget but meaning Google can't read any signals on that page.Noindex allows Google to fetch the page but tells it not to include the page in search results. For crawl budget specifically,disallow is more effective on truly junk URLs (admin paths, internal search results). For filtered facet pages where you want Google to understand the content but not index it,noindex with a canonical is usually the right call.
¿Cuál es un plazo realista para ver mejoras después de solucionar problemas de presupuesto de rastreo?
Honestamente, depende de tu tasa de rastreo. En el proyecto de 91,000 páginas, movimiento significativo en conteos de páginas indexadas tomó alrededor de seis a ocho semanas después de que los arreglos principales fueron implementados. No esperes cambios de la noche a la mañana -- Googlebot necesita volver a rastrear, reevaluar, y la canalización de indexación tiene su propia latencia además de eso.
---
El proyecto de 91,000 páginas terminó bien. Las páginas indexadas aumentaron de 34,000 a poco más de 71,000 durante cinco meses. No perfecto -- hubo genuinamente páginas de producto delgadas que merecían no ser indexadas -- pero el contenido que importaba fue encontrado. El cliente dejó de preguntar si algo estaba roto. Y yo dejé de contemplar cambios de carrera alrededor de la página 47,000 de reportes de rastreo. Mayormente.
