Schema Markup em Larga Escala: JSON-LD para 91.000 Páginas

Lá em 2021, um cliente de viagens entregou à Seahawk um briefing de migração que me deixou com um nó no estômago. Noventa e um mil páginas de destinos e hotéis. Cada uma precisava de schema markup válido, específico e testado, não do tipo preguiçoso one-size-fits-all WebPage que a maioria dos plugins coloca e chama de pronto. O cliente já havia testado dois plugins WordPress de "schema automático". Ambos tinham produzido JSON-LD tecnicamente válido que era também, em qualquer sentido que importasse, inútil, nomes genéricos, sem entidades aninhadas, preços faltando, agregados de avaliações apontando para o lugar errado. O Rich Results Test do Google estava educadamente confuso.

Conclusão-chave: Schema para 91 mil páginas é um problema de arquitetura, não de plugin: gere-o a partir da camada de dados no tempo de build e valide-o no pipeline.

Esse projeto me ensinou mais sobre schema em larga escala do que os oito anos anteriores combinados. Então aqui está o que eu realmente sei.

---

Por Que "Apenas Instale um Plugin" Quebra em Larga Escala

Olha, não estou aqui para criticar Yoast ou Rank Math. Para um site de 40 páginas eles são genuinamente adequados. Mas em algum lugar perto da marca de 500 páginas, o schema gerado por plugin começa a ceder sob suas próprias suposições.

O problema central é que plugins são construídos em torno de templates de página, não de modelos de dados. Eles leem o título do post, talvez um ou dois campos customizados, e constroem um blob de schema. Quando seu site tem 91 mil páginas em seis tipos de conteúdo, hotéis, destinos, tours, avaliações, FAQs e perfis de autor, uma única configuração de plugin não consegue expressar essa variedade sem um enorme trabalho manual de override. E se você está fazendo overrides manuais nessa escala, você já perdeu.

Aqui está o ponto: schema markup é fundamentalmente um problema de data transformation. Você tem dados estruturados em um banco de dados; você precisa deles expressos como JSON-LD em uma <script>tag. É isso. No momento em que você enquadra assim, a arquitetura correta fica muito mais clara.

Os Três Failure Modes Que Continuo Vendo

Blobs de schema estáticos hardcoded em templates. Tudo bem até o nome do produto mudar, aí você tem 12 mil páginas mentindo para o Google.
Configurações de plugin que não conseguem lidar com lógica condicional, como mostrar aggregateRating apenas quando há avaliações de verdade, ou @type diferente por categoria de post.
Arquivos gerados em lote, enviados uma vez e nunca atualizados. Já auditei sites onde o schema estava dezoito meses desatualizado. Os preços estavam errados. As datas dos eventos já tinham passado.

---

Como JSON-LD Realmente Funciona em Escala

Antes de entrar em tooling: um grounding rápido. JSON-LD, JSON for Linked Data, é o formato de schema preferido do Google precisamente porque vive em um bloco <script>, separado do seu HTML. Isso significa que você consegue gerar server-side, injetar limpo, e atualizar sem tocar no markup. Essa separação é tudo quando você está lidando com dezenas de milhares de páginas.

O vocabulário Schema.org é vasto. A maioria das pessoas usa cerca de 1% dele. Em escala você precisa ir mais fundo, Hotel, TouristDestination, LocalBusiness, Review, AggregateRating, objetos Offer aninhados, BreadcrumbList. Cada tipo tem propriedades obrigatórias e recomendadas, e a interpretação do Google de "recomendado" é basicamente "obrigatório se você quer o rich result."

A regra fundamental com a qual trabalho: um `@type` primário por página, com tipos aninhados conforme necessário. Não coloque cinco @type values esperando que um grudar. Escolha o tipo mais específico que se encaixa, depois aninhe tipos de suporte dentro dele.

---

A Arquitetura Que Realmente Usamos

Para o cliente de viagens, acabamos com um sistema de três camadas. Não elegante em termos de diagrama de quadro branco, mas funcionou.

Camada 1: Classes de Schema no Nível de Template (PHP)

Cada tipo de conteúdo ganhou sua própria classe PHP responsável por construir seu array de schema. HotelSchemaBuilder, DestinationSchemaBuilder, TourSchemaBuilder, você entende a ideia. Cada classe puxava de campos customizados ACF Pro, dados de WooCommerce onde aplicável, e alguns valores computados (como calcular aggregateRating a partir de um sistema de reviews baseado em CPT).

A saída de cada classe era um array PHP simples. Sem JSON ainda. Apenas dados.

Isso importa porque significa que você consegue fazer unit test da lógica de dados separadamente da serialização. Eu gostaria de ter feito isso desde o primeiro dia desse projeto. Não fiz. Isso nos custou cerca de dois dias de debugging em staging quando ratingValue estava retornando uma string em vez de um float e o validador do Google estava silenciosamente ignorando o bloco aggregateRating inteiro.

Camada 2: Um Gerenciador de Schema Central

Uma única classe SchemaManager, hookada em wp_head, era responsável por:

Determinar qual classe de builder invocar com base no template/tipo de post atual
Mesclando entidades em todo o site (o gráfico Organization, WebSite com SearchAction, BreadcrumbList)
Codificando o array final como JSON com JSON_PRETTY_PRINT | JSON_UNESCAPED_SLASHES | JSON_UNESCAPED_UNICODE
Envolvendo-o em uma tag <script type="application/ld+json"> e fazendo echo

A lógica de breadcrumb foi a parte mais complicada. Os destinos tinham uma hierarquia de três níveis: Region → Country → City. Fazer o BreadcrumbList refletir isso dinamicamente, sem hardcoding, significava percorrer ancestrais de post no tempo de renderização. Lento, se você não tomar cuidado. Cacheavamos os arrays de breadcrumb por ID de post em um transient com TTL de 24 horas. Isso reduziu a sobrecarga a negligenciável.

Camada 3: Validação e Monitoramento

Gerar schema é o primeiro passo. Saber quando ele quebra é o segundo, e a maioria dos times pula isso inteiramente.

Configuramos uma propriedade Google Search Console e monitoramos o relatório Rich Results semanalmente. Mas isso é reativo, GSC te conta sobre erros depois que o Google já rastreou a página. Para verificações proativas, rodávamos SchemaApp em um crawl das top 2 mil páginas mensalmente. Isso expõe erros em nível de propriedade que o relatório GSC obscurece.

Além disso: o Rich Results Test do Google tem uma API. Escrevemos um pequeno script que acessaria a API com uma amostra aleatória de 50 URLs todas as noites e registraria qualquer falha de validação. Seguro barato.

---

Tratando Dados Dinâmicos Sem Matar o Desempenho

Aqui é onde a maioria das implementações em escala desmorona. Schema que referencia dados vivos, preços, disponibilidade, contagens de avaliações, precisa se manter fresco. Mas regenerar JSON-LD em cada carregamento de página para 91 mil páginas não é de graça.

Minha abordagem, e refini isso em talvez uma dúzia de sites grandes desde então:

Cache agressivamente, invalide inteligentemente.

Para páginas de hotel, o blob do schema era armazenado como post meta, uma string JSON-LD serializada, e regenerado apenas quando:

O post em si era atualizado
Uma nova avaliação era submetida para esse post
O campo customizado de preço foi alterado (conectavamos isso à ação save_post do ACF para isso)

Tudo o mais servia a string cacheada. Rápido demais. E porque os hooks de invalidação eram específicos, o schema permanecia preciso.

Uma coisa que cometi errado inicialmente: cacheavava a tag <script> completa, incluindo os elementos de abertura e fechamento. Depois precisavamos mudar a URL @context para um tipo de conteúdo. Tivemos que invalidar todo cache. Agora cacheo apenas a string JSON e a envuelvo no tempo de renderização. Cinco minutos de código extra, economizaram uma hora de confusão.

E quanto aos preços em tempo real?

Para preços de tour que mudavam várias vezes por dia, adotavamos uma abordagem diferente. O schema base era cacheado, mas o bloco Offer era gerado novo a cada requisição e mesclado antes da serialização. Sim, adicionava uma pequena sobrecarga por requisição. Mas era uma query de banco de dados por carregamento de página, não doze. Tradeoff aceitável.

---

Escalabilidade para Múltiplos Sites: A Perspectiva Seahawk

Seahawk construiu mais de 12.000 sites, e implementação de schema aparece em uma parcela significativa deles. O cliente de viagens foi um caso extremo. Mas os mesmos princípios arquiteturais se aplicam se você está fazendo 91.000 páginas ou 4.000.

O padrão reutilizável que adotei é um pequeno plugin WordPress interno, que chamamos de seahawk-schema-core, que fornece o scaffolding do manager/builder sem qualquer lógica específica do tipo de conteúdo. Projetos de clientes o estendem com suas próprias classes de builder. Nenhuma dependência de plugin para a lógica central do schema. Nenhum risco de uma atualização de plugin de terceiro destruir a presença de rich results de todo um site.

Esse último ponto é mais real do que as pessoas admitem. Já vi atualizações do Rank Math quebrarem silenciosamente overrides de schema customizados. Não porque o Rank Math seja ruim, não é, mas porque quando você está customizando output no nível que um site grande requer, você está operando fora do que o plugin foi desenhado para lidar. Seja dono do código, seja dono do perfil de risco.

---

Testes Nessa Escala: Um Checklist Prático

Você não pode testar manualmente 91.000 URLs. Então você testa inteligentemente.

Amostra por tipo de template. Escolha 10 URLs por tipo de conteúdo. Teste essas. Se o builder está correto para uma página de hotel, está correto para todas as 3.000 páginas de hotel (a menos que haja dados ruins, mais sobre isso abaixo).
Teste casos extremos especificamente. Páginas sem avaliações. Páginas com campos customizados incompletos. Páginas com caracteres especiais em títulos (&,", caracteres acentuados). A serialização JSON consome muitos desses, mas nem todos.
Execute um crawl completo de dados estruturados com Screaming Frog. O Screaming Frog SEO Spider tem um modo de extração de dados estruturados que vai puxar e validar JSON-LD de todas as URLs que ele rastreia. Exporte os erros, agrupe por tipo de template, corrija na fonte.
Monitore a aba Enhancements do GSC. Defina um alerta de threshold, se itens válidos caírem mais de 5% semana a semana, algo quebrou. Aja em até 48 horas.
Faça spot-checks após cada deployment. Mesmo se o código de schema não tiver mudado. Migrações de banco de dados, atualizações de plugin, mudanças de tema, qualquer uma delas pode introduzir problemas de dados upstream que corrompem a saída do schema.

Dados Ruins São o Assassino Silencioso

O site de viagens tinha um time de conteúdo de doze pessoas em três países. Algumas páginas de destino tinham HTML malformado no campo de descrição, colado do Word, presumivelmente. Quando esse campo alimentava a propriedade de schema description, o JSON era tecnicamente válido mas a descrição incluía entidades   e tags <span> soltas. Google ignorou a propriedade. Adicionamos um passo de sanitização em toda classe de builder que remove tags e decodifica entidades HTML antes do valor ir para o array de schema. Resolveu permanentemente.

---

O Entity Graph: Não Ignore

Uma coisa que separa o trabalho de schema medíocre de um SEO técnico genuinamente bom é o entity graph, especificamente, as entidades Organization e WebSite de todo o site que deveriam aparecer em toda página e ligar tudo junto.

A maioria dos sites tem essas, mal feitas. Name, URL, talvez um logo. O tipo Organization completo suporta links sameAs para sua entrada Wikidata, perfis sociais e outras fontes autoritárias. Essa interligação cruzada é como Google constrói confiança de que sua entidade Organization no seu Knowledge Graph é a mesma entidade aparecendo no seu page schema.

Para o cliente de viagens, construímos o bloco Organization com:

sameAs apontando para o perfil Crunchbase deles, página LinkedIn e um stub Wikipedia que tinham
contactPoint com informações estruturadas de telefone e departamento
foundingDate e numberOfEmployees (faixa aproximada, essa é informação pública mesmo assim)

Isso moveu rankings da noite para o dia? Não. Schema quase nunca faz isso isoladamente. Mas é infraestrutura. Você constrói uma vez, corretamente, e isso se agrega com o tempo.

---

FAQ

Quanto tempo leva para implementar schema nessa escala?

Para o site de viagens de 91.000 páginas, a implementação completa, arquitetura, classes de builder, camada de cache, testes, setup de monitoramento do GSC, levou cerca de seis semanas com dois desenvolvedores. Isso parece bastante. Mas metade desse tempo foi auditoria de qualidade de dados existentes, não escrever código de schema. Se seus dados estão limpos, você pode se mover mais rápido.

Devo usar um plugin ou construir algo customizado para sites grandes?

Para qualquer coisa com menos de algumas centenas de páginas, um plugin é genuinamente adequado. O módulo de schema do Rank Math é sólido e o bloco de schema customizado te dá flexibilidade razoável. Acima de alguns milhares de páginas com múltiplos tipos de conteúdo distintos, eu construiria customizado toda vez. O controle vale o custo de desenvolvimento.

Qual é o erro de schema mais comum em escala?

aggregateRating faltando quando avaliações existem, ou incluindo quando não existem. Google é rigoroso com isso. Se seu schema afirma um aggregateRating de 4.7 de 843 avaliações e um usuário chega na página e não vê nenhuma avaliação, é uma ação manual esperando para acontecer. Lógica condicional em suas classes builder é inegociável.

Schema melhora rankings diretamente?

Diretamente? Provavelmente não muito para a maioria dos tipos de query. O que isso faz é desbloquear rich results, estrelas de classificação, dropdowns de FAQ, snippets de avaliações, breadcrumbs no SERP, e esses recursos melhoram as taxas de clique de forma mensurável. O cliente de travel viu um aumento de 22% de CTR em páginas de hotel em quatro meses de implementação completa. Isso alimenta sinais de engagement, que afetam rankings. Então: indiretamente, sim. Substancialmente.

Quais ferramentas você realmente usa dia a dia para trabalho com schema?

Screaming Frog para auditoria de nível de crawl. Google Rich Results Test para spot-checks. Schema Markup Validator em validator.schema.org para validação de propriedade. E honestamente, a documentação do Schema.org em si, tenho a página do tipo Hotel e um punhado de outras salva nos favoritos e consulto constantemente. Nenhuma ferramenta de assinatura sofisticada necessária.

---

Schema em escala é um daqueles problemas que parece um problema de plugin até você estar dentro dele e perceber que é na verdade um problema de arquitetura de software disfarçado de roupagem SEO. Acerte o data model. Cache inteligentemente. Valide incansavelmente. O próprio markup é quase a parte fácil.