Sitios web de directorios que sobreviven 28,000 páginas sin penalizaciones por contenido delgado.
Plataformas de directorios y listados con SEO programático en Next.js más Supabase. Construido por el operador que ejecuta HostList.io — aproximadamente 28,000 páginas de empresas de alojamiento web en vivo desde 2024 en exactamente este stack.
QUÉ TIPO DE DIRECTORIOS CONSTRUIMOS
Prácticamente cualquier forma de directorio, dada una fuente de datos estructurada. Durante los últimos dos años, los patrones que he implementado se dividen en cuatro tipos amplios, y la mayoría de los proyectos de clientes son alguna variante de uno de estos.
Los directorios industriales listan empresas dentro de un vertical, segmentadas por categoría, ubicación, tamaño y conjunto de características. HostList.io es el ejemplo canónico que administro yo mismo — alrededor de veintiocho mil empresas de hosting web, divididas por tipo de hosting, región, banda de precio y caso de uso. Los compradores encuentran proveedores, los proveedores obtienen tráfico, y el directorio en sí se monetiza a través de ubicaciones patrocinadas, enlaces de afiliados, o listados premium pagos dependiendo de lo que se ajuste al vertical.
Los directorios locales y de ubicación son el segundo patrón. Guías de restaurantes, guías de pubs, directorios de dentistas, directorios de contratistas. Cada listado lleva esquema LocalBusiness con coordenadas geográficas, horarios de apertura, y calificaciones donde tienes derechos sobre los datos. Las páginas programáticas ciudad-y-categoría — "mejores restaurantes italianos en Manchester" o "pubs en Stoke Newington" — proporcionan la mayor parte del área de superficie SEO de cola larga en estos sitios.
Los directorios de herramientas y software listan productos de software dentro de una categoría. Herramientas CRM. Aplicaciones de gestión de proyectos. Plataformas sin código. Herramientas de IA. El motor de tráfico en estos son las páginas de comparación — Notion versus Linear versus ClickUp — y las páginas de matriz de características, donde el buscador ya conoce los nombres y solo quiere un desempate.
Los directorios de personas y servicios son el cuarto patrón. Agencias. Freelancers. Consultores. Fotógrafos. Abogados. El desafío con este es que la mayoría de los directorios de personas mueren porque los listados se vuelven obsoletos y nadie los actualiza. Construimos flujos de expiración y edición de perfil de autoservicio desde el primer día del proyecto en lugar de adaptarlos después.
QUÉ ES EL CASO DE ESTUDIO DE HOSTLIST
HostList.io es el directorio que construí solo para catalogar toda la industria de hosting web. Aproximadamente veintiocho mil páginas de empresas de hosting, en vivo desde la primavera de 2024, en la misma pila Next.js más Supabase más Vercel que ahora usamos para las compilaciones de directorios de clientes.
Lo que HostList hace es catalogar cada empresa de hosting web que podemos verificar, segmentada por tipo — compartido, VPS, WordPress administrado, cloud, dedicado, revendedor — región, banda de precio y caso de uso. Hay páginas de comparación entre hosts específicos, páginas de categoría para cada segmento, una interfaz de búsqueda y filtro que maneja el dataset de veintiocho mil filas sin latencia de consulta, marcado de esquema en cada listado, y un sitemap de streaming porque el conteo de URLs ya superó lo que un único sitemap.xml puede contener.
Tres lecciones de administrarlo dan forma a cada compilación de directorio de cliente ahora. Primero, la calidad de los datos es el juego completo. Las páginas con tres puntos de datos únicos más allá del nombre de la entidad sobreviven a las actualizaciones de Google; las páginas con solo un nombre y una descripción genérica se desindexan. Segundo, el enlazado interno importa más que los backlinks a esta escala. El gráfico de enlaces entre listados, categorías y páginas de comparación decide qué páginas hojas se rastrean con la frecuencia suficiente para mantenerse indexadas. Tercero, programático no significa perezoso. Cada página necesita una razón para existir, y "tenemos una fila en la base de datos" no es una razón.
Mantuvimos aproximadamente el quince por ciento de la base de datos fuera del índice porque el umbral de datos únicos no se cumplía en esas filas. Eliminamos páginas de categoría que tenían menos de cinco listados sólidos porque se veían delgadas incluso cuando el esquema subyacente era correcto. Agregamos páginas de comparación entre competidores nombrados como un tipo de página separado, y esa plantilla terminó siendo parte del tráfico de mayor conversión en el sitio. El mismo playbook ahora es estándar en cada directorio que entregamos para clientes.
POR QUÉ LA MAYORÍA DE LOS SITIOS DE DIRECTORIO FRACASAN
Más directorios mueren que sobreviven, y los modos de fallo son lo suficientemente predecibles como para que generalmente pueda decirte en la primera llamada hacia cuál se dirige un proyecto.
La desindexación por contenido delgado es el fracaso más común. Un directorio se lanza con cinco mil listados, la mitad de ellos solo tienen un nombre y una descripción de una línea, y Google indexa los primeros mil quinientos y se detiene. El sitio se lee como un raspado de bajo esfuerzo. Seis meses después, la mayoría de las páginas indexadas se desindexan en una actualización principal. La solución debe ocurrir en el momento de la recopilación de datos — cada fila necesita tres puntos de datos únicos antes de calificar para el sitemap, no "lo llenaremos después".
La desviación de datos obsoletos es el segundo patrón. Un directorio que listaba negocios precisos en 2023 lista negocios semi-inactivos en 2026 porque nadie actualiza las filas, la información de contacto queda desactualizada, los sitios web se resuelven a páginas de estacionamiento, y el directorio pierde señal de confianza tanto con Google como con visitantes humanos. Construimos flujos de edición colaborativa donde el negocio listado puede reclamar y editar su perfil, comprobaciones de actualización automáticas que desactivan listados muertos, o ambas. Sin una capa de actualización, el directorio envejece fuera de relevancia sin importar cuán bueno fuera el dato original.
Sin moat es el tercer patrón. Tres directorios competidores cubren el mismo vertical con datos similares. Ninguno tiene datos únicos, así que ninguno tiene una razón defendible para existir. La cuota de búsqueda se fragmenta y ninguno de ellos posiciona. La solución es la capa editorial — análisis original, puntuación, recomendaciones, marcos de comparación — que los datos subyacentes por sí solos no pueden proporcionar. HostList compite en su rúbrica de puntuación, no en su lista de hosting, porque la lista de hosting en sí no es particularmente defendible.
El exceso de índice por filtros es el cuarto patrón. Un directorio con ocho dimensiones de filtro puede generar técnicamente millones de combinaciones de URL. Si cada combinación es indexable, inundas Google de páginas delgadas y diluyes las fuertes. Siempre bloqueamos combinaciones de filtros delgados del índice — cualquier cosa con menos de tres listados recibe noindex, cualquier cosa sin intención de búsqueda real como órdenes de clasificación o página 2 en adelante recibe noindex, y solo las combinaciones de filtros canónicas que mapean a búsquedas reales permanecen indexables.
QUÉ ENTRA EN UN DIRECTORIO QUE ENVIAMOS
Una arquitectura de referencia para un directorio se envía con cinco capas. Cada proyecto flexiona los detalles específicos, pero la columna vertebral se repite entre construidas.
La capa de datos es Postgres vía Supabase o auto-hospedada, con índices apropiados en cada columna de faceta. Hay una tabla de listados dedicada por tipo de entidad — empresas, productos, ubicaciones, personas — y columnas de compuerta de calidad junto al contenido (puntuación de unicidad, porcentaje de completitud, marca de tiempo de última verificación). Una vista de elegibilidad de sitemap filtra automáticamente las filas por debajo del umbral de calidad.
Las plantillas de página se dividen en una página de detalle de listado (datos completos, listados relacionados, schema, breadcrumb), una página de categoría (lista paginada con UI de filtro e ItemList schema), una página de comparación para cara a cara entre entidades nombradas, una página de ubicación con inserción de mapa y geo schema donde la geografía importa, y páginas de acerca de y metodología que cargan el peso editorial original que los datos subyacentes no pueden proporcionar.
La búsqueda y filtrado usan búsqueda de texto completo de Postgres hasta aproximadamente diez mil listados, luego Algolia o Meilisearch para directorios más grandes con requisitos de latencia de consulta baja. Las URLs de filtro renderizadas en servidor dan a cada combinación de filtro una canónica, y noindex en combinaciones delgadas o duplicadas previene el exceso de índice. El envío y moderación obtienen un formulario de envío público donde el modelo se alimenta de manera colaborativa, una cola de administración con puntuaciones de compuerta de calidad mostradas para revisión del moderador, correos electrónicos de rechazo templados con razones específicas, y un flujo de edición de autoservicio para entidades listadas para reclamar y actualizar su propio perfil.
El andamiaje SEO es la capa que decide si el directorio sobrevive. Sitemap de transmisión con patrón de fragmento por plantilla, Organization o Product o Place o Service o LocalBusiness de schema.org en cada listado según corresponda, CollectionPage con ItemList en páginas de categoría, BreadcrumbList en todas partes, URL canónica emitida desde una única fuente de verdad (la base de datos, no la plantilla), y un linter SEO de tiempo de construcción que falla la construcción en H1 faltante, descripciones meta de tamaño excesivo, o JSON-LD inválido.
La monetización se realiza a través de listados destacados (un indicador booleano promueve una fila a la parte superior de las páginas de categoría), colocaciones de categoría patrocinadas (una marca posee la parte superior de una categoría durante un período de facturación), rastreo de enlaces de afiliado con atribución adecuada rel="sponsored", y niveles premium pagados para entidades listadas para obtener mejor ubicación, más campos de datos ricos, y acceso a análisis.
¿QUÉ FUENTE DE DATOS NECESITAS PARA CONSTRUIR UN DIRECTORIO?
La variable única más importante en un proyecto de directorio es la fuente de datos misma. La mayoría de los trabajos se ganan o se pierden en la respuesta a una pregunta: ¿de dónde vendrán los datos el primer día, y cómo se mantendrán frescos después del lanzamiento?
Editorial manual significa que un equipo escribe cada listado. Lento, caro, pero defendible. Adecuado para menos de mil listados. Ejemplos que he visto funcionar: guías de hoteles de lujo, directorios de agencias curados, sitios editoriales de nicho donde el hecho de estar listado es en sí el valor.
Importación estructurada significa que traes un CSV o una exportación de base de datos de algún lugar confiable, y nosotros limpiamos, deduplicamos, enriquecemos e ingerimos los datos. Adecuado para uno a cien mil listados. Ejemplos: directorios industriales con datos públicos, importaciones de registros gubernamentales, exportaciones al estilo de companies-house.
Scraping automatizado o API significa que los listados se rellenan desde una API de terceros o un pipeline de scraping respetuoso. Depende legalmente y éticamente de la fuente. Adecuado para diez mil a millones de listados donde los datos viven en un lugar canónico conocido. Ejemplos: directorios de herramientas para desarrolladores extraídos de GitHub, reseñas de hosting raspadas de reseñas públicas en los sitios de las empresas mismas.
Envíos de usuarios significa que los listados provienen de las personas que están siendo listadas. Barato de lanzar, caro de moderar. Mejor como una capa sobre datos editoriales semilla, no como la única fuente. El patrón híbrido (semilla editorial más importación estructurada más revisión editorial anual) es lo que HostList ejecuta y lo que la mayoría de los directorios reales terminan haciendo, ya sea que lo hayan planeado o no.
En la primera llamada preguntaremos qué combinación se ajusta a tu realidad de datos. Si no tienes una respuesta clara, la pregunta de datos es en sí misma la primera fase de trabajo; la construcción viene después.
CUÁNTO CUESTA CONSTRUIR UN DIRECTORIO Y CUÁNTO TIEMPO TOMA
Rangos honestos basados en trabajos reales recientes en lugar de precios aspiracionales en un deck de ventas. Un pequeño directorio editorial de menos de mil listados cuesta dieciocho a treinta y cinco mil dólares estadounidenses durante seis a nueve semanas. Un directorio de tamaño medio de uno a diez mil listados con una importación de datos estructurada cuesta treinta a sesenta mil durante diez a catorce semanas. Un directorio grande de diez a cien mil listados, programático a escala, cuesta cincuenta a noventa mil durante doce a dieciocho semanas. Una forma de marketplace — de dos lados, con reservas o transacciones — cuesta sesenta a ciento cincuenta mil durante catorce a veintidós semanas.
Todos los rangos incluyen el andamiaje de SEO (schema, sitemap, linter), la capa de búsqueda y filtrado, y un panel de administración básico. No incluyen la adquisición de datos misma (editorial manual, infraestructura de scraping, costos de API de terceros), trabajo original de marca y diseño, o adquisición de tráfico pagado. Los planes de cuidado para la operación continua después del lanzamiento cuestan quinientos a tres mil dólares estadounidenses por mes.