Por volta do provedor número 11.000, realmente questionei cada decisão que já tinha tomado. Não de forma dramática -- mais como o temor tranquilo e específico de perceber que você se enfiou num beco sem saída com um dataset que não para de crescer e um schema desenhado para talvez 500 registros. Esse era HostList. Um diretório de provedores de hospedagem. Todos eles, ou o mais próximo de todos que eu conseguisse chegar.
Vou contar o que realmente aconteceu -- as escolhas de arquitetura, os pesadelos com dados, os momentos em que fez clique, e as partes que eu faria completamente diferente se começasse hoje.
Por Que um Diretório de Web Hosting
Sinceramente? Fiquei irritado. Estava fazendo pesquisa para um cliente da Seahawk Media -- uma SaaS de médio porte que precisava migrar de provedores -- e não conseguia encontrar um único diretório que fosse abrangente e atual. A maioria era ou thin pages de afiliados fingindo ser neutras, ou listas desatualizadas que ainda listavam provedores que faliram em 2017.and current. Most were either thin affiliate pages pretending to be neutral, or outdated lists that still featured hosts that had gone under in 2017.
A indústria de web hosting tem milhares de provedores ativos. Não dezenas. Milhares. Hosts compartilhados, hosts WordPress gerenciados, provedores VPS, especialistas em bare-metal, players regionais que você nunca ouviu falar. Ninguém tinha mapeado isso direito. Então pensei: vou fazer. Seis semanas, pensei comigo mesmo.WordPress hosts, VPS providers, bare-metal specialists, regional players you've never heard of. Nobody had mapped it properly. So I thought: I'll do it. Six weeks, I told myself.
Levou consideravelmente mais do que seis semanas.
O mercado validou o instinto, porém. Veja o que diretórios de nicho conseguem fazer em escala até modesta -- Soak Oregon, um simples diretório de fontes termais, gera aproximadamente $1.000 por mês em receita de anúncios com apenas 25.000 visitantes mensais. Não é erro de digitação. 25.000 visitantes. A economia de um diretório bem direcionado é genuinamente diferente da de um site de conteúdo geral.Soak Oregon, a simple hot springs directory, pulls roughly $1,000 a month in ad revenue on just 25,000 monthly visitors. That's not a typo. 25,000 visitors. The economics of a well-targeted directory are genuinely different from a general content site.
O Problema de Dados Que Ninguém Fala Sobre
É aqui que a maioria dos guias de construção de diretórios te deixa na mão completamente. Eles dirão para você configurar categorias e campos de listagem. Tudo bem. O que não dirão é que reunir 25.000 registros precisos e estruturados é um problema de uma classe totalmente diferente.
Minha primeira abordagem foi pesquisa manual mais uma camada de scraping que montei num fim de semana. O scraper era ok. Os dados eram caos. Provedores de hospedagem mudam preços constantemente. Alguns tinham três marcas diferentes. Alguns eram resellers de resellers -- a mesma infraestrutura subjacente usando quinze logos diferentes. Apenas deduplicação me custou três semanas.data was chaos. Hosting providers change their pricing constantly. Some had three different brand names. Some were resellers of resellers -- the same underlying infrastructure wearing fifteen different logos. Deduplication alone cost me three weeks.
Algumas coisas que gostaria de ter decidido mais cedo:
- Um registro canônico por entidade legal, não por marca. Alguns hosts têm quatro marcas. Ainda são um host., not per brand. Some hosts have four brands. They're still one host.
- Data de atualização em todo campo. Não apenas "última atualização" na linha -- por campo. Preços envelhecem mais rápido que conjuntos de funcionalidades.Not just "last updated" on the row -- per field. Pricing goes stale faster than feature sets.
- Uma fila de revisão manual desde o primeiro dia. Ingestão automatizada é boa para o primeiro passo. Mas você precisa de um processo para sinalizar registros que parecem errados antes de serem publicados.Automated ingestion is fine for first-pass. But you need a process for flagging records that look wrong before they go live.
Especialmente o terceiro ponto. Pulei isso no começo e acabei com um monte de listagens que tinham níveis de preço completamente errados porque um host tinha rebranded seus planos e o scraper tinha feito correspondência na estrutura da página antiga. Levei uma eternidade para encontrar.
Escolhendo a Stack de Tecnologia Certa
Optei por WordPress. Eu sei. Mas me ouça.
Para um diretório nessa escala, você quer algo com um ecossistema de plugins maduro e uma camada de query que você entenda profundamente. Eu tinha usado Directorist em projetos menores e se comportou bem -- schema flexível, funciona com Gutenberg, defaults sensatos. Para HostList especificamente, emparelhei com uma camada de custom post type por cima, porque eu precisava de campos que nenhum plugin off-the-shelf antecipou (coisas como localizações de data-centre, arranjos de peering, versões de painel de controle).Directorist on smaller projects and it held up well -- flexible schema, works with Gutenberg, sensible defaults. For Hostlist specifically I paired it with a custom post type layer on top, because I needed fields that no off-the-shelf plugin anticipated (things like data-centre locations, peering arrangements, control panel versions).
As quatro páginas que realmente importam -- e eu diria que isso é verdade para qualquer diretório independente de nicho -- são:
- Homepage com propósito claro, listagens em destaque, e uma busca extremamente simples
- Página de arquivo/navegação com filtragem rápida (é aqui que 80% dos seus usuários ficam)
- Listagem individual com o registro completo, marcação de dados estruturados, e uma forma de reivindicar/reportar
- Página de envio (mesmo que você não esteja fazendo envios de usuários inicialmente, construa pronto)
Não consigo enfatizar a página de arquivo o suficiente. Usuários não chegam na sua homepage e depois navegam. Eles caem numa página de arquivo vindo do Google e decidem em quatro segundos se os dados parecem confiáveis. Acerte essa página primeiro.then navigate. They land on an archive page from Google and decide within four seconds whether the data looks credible. Get that page right first.
O Que Eu Mudaria Sobre a Stack
Tabelas customizadas. Eu deveria ter movido os dados de listagem principal para fora de post meta e para tabelas relacionais apropriadas muito mais cedo. WordPress post meta é ok até talvez 5.000 registros. Depois disso, as queries ficam ruins. As considerações de performance para aplicações web em larga escala são reais -- RAM, otimização de query, estratégia de caching -- nada disso você planeja quando está só tentando colocar a coisa para funcionar.performance considerations for large-scale web applications are real -- RAM, query optimisation, caching strategy -- none of which you plan for when you're just trying to get the thing launched.
Hospedando o Diretório em Si (Genuinamente Desconfortável)
Há uma ironia particular em construir um diretório de hospedagem web e depois ter que escolher um host para ele. Passei por três hosts no primeiro ano.
O primeiro era um host WordPress gerenciado que não vou nomear. Ele travou no processo de importação -- 25.000 posts entrando via WP-CLI não era algo para o qual a infraestrutura deles foi projetada. O segundo era uma VPS onde eu cuidava de tudo: Nginx como reverse proxy, Redis para cache de objetos, ufw para firewall. Essa abordagem de arquitetura auto-hospedada funciona brilhantemente quando você sabe o que está fazendo -- visibilidade total, nenhuma limitação misteriosa, você controla os headers de cache. Mas também são 23h de uma quinta-feira quando algo quebra e é inteiramente seu problema.That self-hosted architecture approach works brilliantly when you know what you're doing -- total visibility, no mystery throttling, you control the cache headers. But it's also 11pm on a Thursday when something breaks and it's entirely your problem.
Acabei em uma VPS gerenciada com acesso root. O melhor dos dois mundos. Mantive Nginx na frente, adicionei uma camada CDN para os assets estáticos, e isso se sustenta desde então.
A lição: qualquer que seja o host que você escolha, teste-o com seu volume real de dados antes de se comprometer. Não uma amostra. Sua importação real. Um host que se comporta perfeitamente com um blog de 500 posts às vezes falha completamente quando você joga 25.000 registros nele durante uma reconstrução de banco de dados.test it with your actual data volume before you commit. Not a sample. Your real import. A host that handles a 500-post blog with flying colours will sometimes completely fall over when you throw 25,000 records at it during a database rebuild.
Monetização: O Que Tentei, O Que Funcionou
Lá em 2019 um cliente uma vez me disse, "o dinheiro está na listagem, não no tráfego." Não entendi completamente na época. Entendo agora.
A receita do HostList veio de alguns lugares, em ordem aproximada do que realmente moveu a agulha:
- Listagens em destaque/premium -- hosts pagam para aparecer no topo das páginas de categoria relevantes. Isso funciona. Os CPMs são bons porque a intenção é alta. -- hosts pay to appear at the top of relevant category pages. This works. The CPMs are good because the intent is high.
- Badges verificados com renovação anual -- mais leve do que uma listagem premium completa, mas é rentável. -- lighter-touch than a full premium listing, but it adds up.
- Publicidade em display -- adicionei isso tarde e é o melhor desempenho de longe. A audiência é muito pequena e muito específica para que redes de anúncios amplas valorizem adequadamente. -- I added this late and it's the weakest performer by quite a lot. The audience is too small and too specific for broad ad networks to value properly.
- Lead gen / afiliado -- fui cauteloso aqui porque não queria que o HostList parecesse com todos os outros sites de comparação enviesados. Tenho um pequeno número de acordos de referência, mas são divulgados e limitados. -- I was cautious here because I didn't want Hostlist to look like every other biased comparison site. I have a small number of referral arrangements but they're disclosed and limited.
O que eu não fiz foi um modelo freemium onde listagens básicas são gratuitas e upgrades são pagos. Pensei sobre isso. O problema com hospedagem web especificamente é que os provedores dignos de estar na sua plataforma são também aqueles menos propensos a precisar do seu diretório para exposição. Os hosts menores se beneficiam mais de serem listados, mas também são aqueles com os orçamentos menores. A economia é complicada.not done is a freemium model where basic listings are free and upgrades are paid. I thought about it. The problem with web hosting specifically is that the providers worth having on your platform are also the ones least likely to need your directory for exposure. The smaller hosts benefit more from being listed, but they're also the ones with the smallest budgets. The economics are awkward.
Brilliant Directories e plataformas similares têm isso resolvido para diretórios mais orientados para comunidade -- fornecedores de casamento, recursos para pais -- onde os membros genuinamente querem ser encontrados por pessoas locais. Web hosting é diferente. É um mercado global e ultra-competitivo. have this figured out for more community-oriented directories -- wedding vendors, parenting resources -- where the members genuinely want to be found by locals. Web hosting is different. It's a global, hyper-competitive market.
SEO para um Diretório Grande: Os Bits Que Realmente Ajudaram
Um diretório com 25.000 entradas é um ativo de SEO se você o gerenciar bem. É uma responsabilidade de SEO se não fizer.
As coisas específicas que ajudaram:
- Meta descriptions únicas, estruturadas mas variáveis por listagem -- não apenas o nome do host + "revisão de web hosting". Puxei pontos de dados reais (faixa de preço, caso de uso principal, ano de fundação) para gerar descrições que eram genuinamente diferentes. -- not just the host name + "web hosting review". I pulled in actual data points (price tier, primary use case, founding year) to generate descriptions that were genuinely different.
- Páginas de categoria e tag com conteúdo editorial real -- não apenas uma grade de cards. Uma introdução de 200 palavras explicando o que "managed WordPress hosting" realmente significa, escrita uma vez, aplicada à categoria. Google quer ver que alguém pensou sobre a página. -- not just a grid of cards. A 200-word intro explaining what "managed WordPress hosting" actually means, written once, applied to the category. Google wants to see that someone thought about the page.
- Structured data (Schema.org) -- cada listagem tem markup de LocalBusiness ou Organization. As taxas de clique melhoraram notavelmente depois que adicionei isso corretamente. -- every listing has
LocalBusinessorOrganizationmarkup. Click-through rates improved noticeably after I added this properly. - Canonicals em combinações de filtros -- isso quase me matou. Busca facetada gera milhares de combinações de URL. Se você não as canicalizar de volta para a URL de arquivo limpa, você ficará falido de orçamento de rastreamento em um mês. -- this nearly killed me. Faceted search generates thousands of URL combinations. If you don't canonical them back to the clean archive URL, you'll be crawl-budget bankrupt within a month.
- Listagens indexadas apenas para hosts ativos -- faço noindex de qualquer coisa que não consiga confirmar que ainda está operacional. Listagens mortas são piores que nenhuma listagem. -- I noindex anything I can't confirm is still operating. Dead listings are worse than no listing.
A única coisa que fiz errado no começo: indexei tudo imediatamente. Incluindo esboços com quase nenhum dado. O Google rastejou, encontrou páginas fracas, e parcialmente desconsiderou todo o domínio por um tempo. Lição: não indexe até que valha a pena indexar.don't index it until it's worth indexing.
O que eu faria diferente
Algumas coisas, rapidamente:
- Comece com um nicho menor e mais focado primeiro. "Diretório de hospedagem web" é gigantesco. Deveria ter lançado com "hosts WordPress gerenciados" -- talvez 300-400 registros -- comprovado o conceito, depois expandido.
- Construa o pipeline de dados antes do front-end. Fiz de trás para frente. O front-end estava ao vivo antes do processo de importação estar sólido, o que significava que estava constantemente consertando dados ao vivo.before the front end. I did it backwards. The front end was live before the import process was solid, which meant I was constantly patching live data.
- Cobre por listagens desde o primeiro dia. Mesmo £1/mês. Listagens grátis atraem hosts que preenchem o formulário mal e nunca respondem a pedidos de atualização. Um pequeno pagamento filtra pela qualidade.
- Invista em um sistema de contribuidor adequado mais cedo. Algumas das melhores correções de dados que recebi vieram de usuários que encontraram erros. Eu não tinha nenhuma forma estruturada de aceitar isso nos primeiros oito meses.
Honestamente, construir o HostList.io tem sido um dos projetos secundários mais interessantes tecnicamente que já trabalhei -- e um dos mais humilhantes. O formato de diretório parece enganosamente simples de fora.
---
FAQ
Quanto tempo levou para construir HostList?
A primeira versão -- bruta, cheia de lacunas de dados, mas ao vivo -- levou cerca de três meses de noites e fins de semana. Chegar a um estado do qual eu estava genuinamente orgulhoso levou perto de um ano. O trabalho de qualidade de dados nunca realmente para.
Qual plugin WordPress você usou para a funcionalidade do diretório?
Directorist como base, depois uma quantidade substancial de desenvolvimento customizado por cima. Para um diretório menor eu usaria mais ou menos direto da caixa. Com 25.000 entradas, você eventualmente vai precisar escrever queries customizadas mesmo -- o plugin apenas te dá um ponto de partida.
Um diretório de hospedagem web é realmente lucrativo?
Pode ser. O meu cobre seus custos e ganha além disso, mas não vou fingir que é uma máquina de renda passiva. As margens dependem muito de você conseguir vender listagens premium. Apenas anúncios display não vão te levar lá em níveis de tráfego moderados.
Como você mantém 25.000 listagens atualizadas?
Imperfectamente. Tenho uma combinação de scrapers agendados que verificam mudanças nas páginas de preços, uma fila de correções reportadas pela comunidade e um ciclo de revisão manual para os 500 hosts principais por tráfego. A cauda longa se degrada com o tempo. Aceitei isso.
Você recomendaria construir um grande diretório como primeiro projeto?
Não. Comece com algo que você possa fazer em 500 registros. Prove que as pessoas usam e que há um caminho de monetização. Depois escale. A complexidade técnica e de gerenciamento de dados de um diretório grande é genuinamente não-trivial, e você quer encontrar esses problemas depois de ter validado a ideia, não antes.Then scale. The technical and data-management complexity of a large directory is genuinely non-trivial, and you want to encounter those problems after you've validated the idea, not before.
---
A coisa sobre diretórios é que eles são um jogo de longo prazo. Você está construindo um ativo de dados, não um site de conteúdo. O tráfego cresce lentamente, o trabalho é ingrato, e pelos primeiros seis meses você vai se perguntar se alguém se importa. Mas quando os dados são bons e o nicho é certo, diretórios desenvolvem uma espécie de atração gravitacional que é difícil de replicar com qualquer outro formato. É por isso que continuo construindo-os.
