SEO Programático que sobrevive la Helpful Content Update — construido por el operador detrás de HostList.io.
Alrededor de 28,000 páginas en vivo desde 2024 en Next.js más Supabase. El mismo playbook aplicado a tus datos estructurados — quality gates, estrategia de schema, internal linking a escala, sitemap streaming para más de 50,000 URLs.
QUÉ APRENDÍ CONSTRUYENDO HOSTLIST CON 28,000 PÁGINAS PROGRAMÁTICAS
Lancé HostList a principios de 2024 como un proyecto paralelo. La idea era lo suficientemente directa: catalogar todas las empresas de hosting web en internet, dar a cada una una página real con una reseña real, y permitir que las personas comparen hosts de la manera en que realmente quieren compararlos. Dos años y medio después hay alrededor de veintiocho mil páginas en el sitio, cada una de ellas generada programáticamente desde una fuente de datos estructurada, y he visto personalmente cómo el sitio atravesaba cada actualización de Google que Helpful Content lanzaba.
Lo que nadie te dice cuando comienzas un sitio programático es que el trabajo es principalmente editorial, no técnico. La parte de Next.js se arma en un par de semanas. El esquema de Supabase, el pipeline de ingesta, el sitemap de streaming, el emisor de schema.org — todo eso es ingeniería resuelta. Lo que toma el resto del año es averiguar cuál de tus veintiocho mil filas realmente merece estar en el índice, y qué tienes que agregar al template antes de que cualquiera de esas filas se lea como una página real en lugar de un printout de base de datos con ambiciones SEO.
He llegado a pensar en el SEO programático como la disciplina de la sustracción. El movimiento por defecto es enviar cada fila. El movimiento correcto es enviar solo las filas que ganaron un lugar, y luego envolverlas en suficiente contexto editorial para que la página exista por una razón más allá de llenar un sitemap. Si logras esas dos cosas correctamente, Google te deja en paz durante las actualizaciones principales. Si algo sale mal en cualquiera de los dos, pierdes la mayoría de tus páginas indexadas en dos trimestres.
Lo que sigue es el playbook que ejecuto en HostList todos los días, aplicado al trabajo con clientes de la misma forma. No es un argumento de marketing. Es el checklist real.
CUÁNDO EL SEO PROGRAMÁTICO ES LA FORMA CORRECTA
La mayoría de las ideas que me presentan como programáticas no deberían serlo. La forma en que lo determino en la llamada es si el dataset es genuinamente interesante y si las búsquedas están genuinamente fragmentadas a lo largo de la cola larga. Ambas tienen que ser verdaderas. Si el dataset es solo SEO bait y las búsquedas no están realmente sucediendo en la cola larga que imaginas, programático es la forma incorrecta y seguir adelante de todos modos te costará las páginas indexadas en seis meses.
Un puñado de patrones funcionan en 2026, y son bastante estrechos. Los sitios de comparación funcionan porque el buscador ya conoce los nombres involucrados y solo quiere un desempate; Notion versus Linear, Stripe versus Adyen, Cloudways versus Kinsta. Las páginas de ubicación funcionan porque la intención local está fundamentalmente fragmentada y casi nadie la escribe a mano a escala. Los directorios de industria funcionan cuando la combinación entidad-por-filtro produce consultas con volumen real; HostList en sí está construido exactamente alrededor de esa forma, es por eso que conozco los modos de fallo al ejecutarlos. Las páginas de glosario funcionan cuando el término es lo suficientemente técnico como para que las respuestas existentes en la web sean malas. Las páginas de calculadora funcionan cuando el cálculo en sí más una página de metodología debajo es el valor real para el buscador.
Todo lo demás que me presentan es la versión mala. La versión "queremos un millón de páginas de contenido genérico con nuestra marca en ellas", generalmente presentada como un experimento de crecimiento que se supone debe multiplicar el tráfico orgánico por diez en un trimestre. Google ha sido particularmente agresivo con esto desde la Helpful Content Update a finales de 2022, y las ondas de desindexación solo se han acelerado desde entonces. He visto a cinco equipos diferentes intentar el juego programático perezoso en los últimos dos años; los cinco perdieron la mayor parte de sus páginas indexadas en dos trimestres. Ahora rechazo el trabajo en lugar de enviarlo, lo que es incómodo en la llamada de ventas pero más amable para todos a largo plazo.
CÓMO LOS GATES DE CALIDAD REALMENTE FUNCIONAN
Tres puertas se ejecutan en el momento de la compilación antes de que cualquier página llegue al mapa del sitio. Son automatizadas en lugar de una revisión manual, porque con treinta mil URLs una revisión manual no es realmente una revisión y pretender lo contrario solo retrasa la desindexación.
La primera puerta es datos únicos. Toma una página sobre alojamiento WordPress administrado de Cloudways en HostList. Necesita al menos tres cosas específicas de Cloudways. Un rango de precio. Una lista de características. Una región. Una empresa matriz. Un caso de uso. Cualquier cosa que no sea también verdadera para Kinsta o WP Engine. Si la página solo tiene un nombre, un logo y una descripción genérica, falla la puerta. Se retiene del mapa del sitio. Se marca como noindex en la fuente. La capa de datos se llena eventualmente a medida que el equipo enriquece la fila, luego la página se gana su lugar de vuelta en el índice. En HostList en este momento, aproximadamente el quince por ciento de la base de datos permanece fuera del mapa del sitio exactamente por esta razón.
La segunda puerta es valor editorial agregado. La plantilla tiene que hacer algo que los datos por sí solos no pueden. Comparación. Puntuación. Recomendación. Agregación. Pros y contras. Una plantilla que solo renderiza la fila de la base de datos en tipografía agradable no es suficiente, aunque la tipografía sea buena. Esta es la puerta donde los equipos fallan más a menudo en la práctica. Construyen una ingesta ingeniosa, pierden el envoltorio editorial, lanzan dos mil páginas que todas se ven idénticas bajo la palabra clave, y luego se preguntan por qué Google las desindexó seis meses después. El envoltorio es lo que señala a Google que la página existe por una razón más allá de llenar un mapa del sitio.
La tercera puerta es intención de búsqueda real. Cada URL tiene que mapear a una consulta que alguien plausiblemente busca, con volumen suficiente para que valga la pena indexarla. Las páginas dirigidas a consultas bajo cincuenta búsquedas mensuales normalmente se marcan como noindex incluso si pasan las dos primeras puertas, porque contaminan el mapa del sitio y diluyen el presupuesto de rastreo para las páginas fuertes en el mismo dominio. El umbral es flexible según la industria; lo calibramos por proyecto después de revisar los datos de Search Console en sitios adyacentes en el mismo vertical.
LO QUE CORTÉ DE HOSTLIST Y LO QUE MANTUVE
Lo primero que corté del índice fue la cola fina. Aproximadamente el quince por ciento de la base de datos permanece fuera del mapa del sitio porque no se cumplió el umbral de datos únicos. Una fila con solo un nombre, un logo y una descripción genérica de una línea no es una página que Google debería conocer; el costo de rastrearla es mayor que el valor de tenerla indexada. Las páginas de categoría con menos de cinco listados fuertes también permanecen fuera, porque una categoría fina se lee como poco esfuerzo aunque el esquema sea técnicamente correcto. Las combinaciones de filtros con menos de tres resultados obtienen noindex automáticamente a través de una verificación en el momento de la compilación.
Lo que mantuve y crecí fue comparación. Las páginas de comparación directa entre hosts nombrados terminaron siendo el tipo de página con mayor conversión en el sitio, generando aproximadamente el treinta por ciento de todas las conversiones a pesar de representar menos del cinco por ciento del número de URLs. Añadí comparación como una plantilla separada y la escalé deliberadamente. Las páginas de categoría con datos únicos fuertes también superaron por un margen considerable las versiones genéricas. No solo "mejor alojamiento WordPress" sino "mejor alojamiento WordPress para tiendas WooCommerce con menos de diez mil productos". Específico. Con consulta. Útil. Cuanto más estrecho el calificador, mejor tendía a funcionar la página, lo que va en contra de la mayoría de los consejos de SEO que lees en línea.
Las páginas que mantuve escritas a mano fueron el centro de gravedad. Aproximadamente doscientas de las veintiocho mil son completamente editorialización humana. La página de metodología. La rúbrica de puntuación. La guía "cómo elegir un proveedor de alojamiento". Un puñado de aterrizajes de categoría fuertes. No escalan programáticamente y nunca fue su intención, pero cargan peso desproporcionado en el gráfico de autoridad temática y cada página de hoja enlaza de vuelta a ellas. Las veintisiete mil ochocientos páginas programáticas orbitan alrededor de las doscientos. Esta es la estructura que sobrevive una actualización central.
QUÉ VA EN UNA COMPILACIÓN PROGRAMÁTICA QUE ENVIAMOS
La capa de datos se encuentra en Postgres, ya sea a través de Supabase o alojada por cuenta propia dependiendo de lo que el equipo ya esté ejecutando. Cada columna de faceta está debidamente indexada, porque a escala los escaneos de tabla completa en una consulta de filtro se convierten en el cuello de botella antes de que la página en sí sea lenta. Cada tipo de contenido obtiene una tabla de entidades dedicada con columnas de puerta de calidad junto al contenido real — puntuación de unicidad, porcentaje de integridad, marca de tiempo de última verificación. Una vista de elegibilidad del mapa del sitio filtra automáticamente las filas por debajo del umbral, por lo que el mapa del sitio y los datos subyacentes se mantienen sincronizados sin que la curación manual esté involucrada.
Las plantillas vienen en cuatro formas. Una plantilla de detalle por tipo de entidad, con espacios explícitos para datos únicos más el envoltorio editorial. Una plantilla de comparación para enfrentamientos cara a cara entre entidades nombradas, esquema FAQPage adjunto, nunca AggregateRating a menos que realmente existan reseñas de primera mano. Una plantilla de categoría y filtro usando CollectionPage con ItemList de entidades calificadas, paginada con manejo canónico adecuado para que las combinaciones de filtros no creen URLs duplicadas infinitas. Y plantillas editoriales usando esquema Article, escritas a mano, volumen bajo, peso temático más alto, tratadas como la columna vertebral del gráfico de enlaces en lugar de las hojas.
El andamiaje SEO es la parte que la mayoría de los equipos subestiman a escala. El mapa del sitio se transmite en fragmentos por plantilla, porque un sitemap.xml individual alcanza un máximo de cincuenta mil URLs y la mayoría de los proyectos programáticos superan eso dentro del primer año. El enlazado interno se genera a partir de los datos mismos — cada hoja se vincula a su categoría, su ubicación, sus competidores nombrados y entidades similares por solapamiento de características. Un linter SEO de tiempo de compilación muestrea una porción de páginas en cada despliegue y falla la compilación en cualquier anomalía de recuento de H1, descripción meta fuera de rango, error de validez de JSON-LD o problema de integridad del clúster hreflang. Después del lanzamiento, el seguimiento de citas de AI Overview mediante Otterly o Profound se ejecuta semanalmente para detectar cuándo un motor de búsqueda generativo comienza a citar o deja de citar una página en el dominio.
CUÁNTO CUESTA EL SEO PROGRAMÁTICO
Rangos honestos, tomados de compromisos reales recientes en lugar de precios aspiracionales en una presentación de ventas. Una compilación programática pequeña bajo mil entidades cuesta dieciocho a treinta mil dólares estadounidenses durante seis a nueve semanas. Trabajo de tamaño medio entre mil y diez mil entidades, con importación de datos estructurados, cuesta treinta a sesenta mil durante ocho a catorce semanas. Proyectos más grandes entre diez mil y cien mil entidades, con una tubería de ingesta personalizada contra una API externa o una fuente de scraping, cuestan cincuenta a noventa mil durante doce a dieciocho semanas. Los planes de cuidado para operación continua, actualización de contenido y mantenimiento de puertas de calidad cuestan quinientos a tres mil por mes después del lanzamiento.
Cada rango incluye el andamiaje de datos, las plantillas, el linter SEO y un panel de administración básico para anulaciones editoriales. No incluyen la adquisición de datos en sí. Editorial manual, infraestructura de scraping, costos de API de terceros y trabajo de marca y diseño original son todos elementos de línea separados. La adquisición de tráfico pagado también está fuera del alcance; el SEO programático es un juego orgánico y no agrupamos medios pagados en el compromiso. La mayoría de los proyectos se sitúan cómodamente en la mitad inferior de cada banda; la mitad superior existe para compilaciones genuinamente complejas donde la ingesta de datos o la capa editorial es inusualmente pesada.