大规模Schema标记：91,000个页面的JSON-LD

早在2021年，一个旅游客户给Seahawk交付了一份迁移任务，让我有点担心。91,000个目的地和酒店页面。每一个都需要有效的、具体的、经过测试的schema标记，而不是那种大多数插件贴上去就了事的懒惰的"一刀切"WebPage类型。这个客户已经尝试过两个"自动schema" WordPress插件。两个都生成了在技术上有效的JSON-LD，但实际上毫无用处——通用名称、没有嵌套实体、缺少价格、评价汇总指向错误的对象。Google的Rich Results Test感到困惑。

关键要点：91,000 个页面的架构是一个架构问题，而不是插件问题：在构建时从数据层生成它，并在管道中验证它。

那个项目教会我的关于规模化schema的知识，比之前八年加起来还要多。所以这就是我真正知道的。

---

为什么"只安装插件"在规模上会崩溃

听着，我不是来贬低Yoast或Rank Math的。对于一个40页的宣传网站，它们确实没问题。但在500页左右的地方，插件生成的schema开始在自己的假设下崩溃。

核心问题在于插件是围绕页面模板而不是数据模型构建的。它们读取文章标题，也许读取一两个自定义字段，然后构造一个schema blob。当你的网站有91,000个页面跨越六种内容类型——酒店、目的地、游览、评价、常见问题和作者资料——单个插件配置无法在没有大量手动覆盖工作的情况下表达这种多样性。而如果你在这种规模上进行手动覆盖，你就已经失败了。

关键在于：schema标记从根本上说是一个数据转换问题。你在数据库中有结构化数据；你需要将其表示为<script>标签中的JSON-LD。就这样。一旦你这样框架化，正确的架构就会清晰得多。

我一直看到的三种失败模式

在模板中硬编码的静态schema块。在产品名称改变之前还不错，改变之后你就有12,000个页面向Google撒谎。
无法处理条件逻辑的插件配置，比如只有在实际有评价时才显示aggregateRating，或根据文章分类使用不同的@type。
批量生成的文件上传一次，永远不更新。我审计过的网站中，schema已经十八个月没有更新了。价格都错了。活动日期早就过了。

---

JSON-LD在规模上的实际工作原理

在介绍工具之前：快速了解一下。JSON-LD（Linked Data的JSON）是Google偏好的schema格式，正是因为它位于<script>块中，与你的HTML分离。这意味着你可以在服务器端生成它，干净地注入它，并在不触及标记的情况下更新它。当你处理数万个页面时，这种分离是一切。

Schema.org词汇库非常庞大。大多数人只使用其中的1%。大规模时你需要更深入——Hotel、TouristDestination、LocalBusiness、Review、AggregateRating、嵌套的Offer对象、BreadcrumbList。每种类型都有必需和推荐的属性，Google对"推荐"的解释基本上是"如果你想要富搜索结果就必需"。

我工作遵循的基本规则：每个页面一个主要`@type`，根据需要嵌套其他类型。不要堆砌五个@type值，希望其中一个能有效果。选择最符合的最具体的类型，然后在其中嵌套辅助类型。

---

我们实际使用的架构

对于旅游客户，我们最终采用了三层系统。从白板图表的角度看不够优雅，但它行之有效。

第 1 层：模板级 Schema 类（PHP）

每种内容类型都有自己的PHP类负责构建其schema数组。HotelSchemaBuilder、DestinationSchemaBuilder、TourSchemaBuilder，你知道的。每个类从ACF Pro自定义字段、WooCommerce数据（如适用）和一些计算值（如从基于CPT的评价系统计算aggregateRating）中提取数据。

每个类的输出是一个普通的 PHP 数组。还没有 JSON。只是数据。

这很重要，因为这意味着你可以单独对数据逻辑进行单元测试，与序列化分开。我希望从这个项目的第一天就这样做了。我没有。这让我们在测试环境中花了大约两天时间调试——当时ratingValue返回的是字符串而不是浮点数，Google的验证工具默默地忽略了整个aggregateRating块。

第 2 层：中央 Schema 管理器

一个SchemaManager类被挂接到wp_head中，负责：

根据当前模板/文章类型确定要调用哪个构建器类
合并站点范围的实体（Organization 图谱、包含 SearchAction 的 WebSite、BreadcrumbList）
使用 JSON_PRETTY_PRINT | JSON_UNESCAPED_SLASHES | JSON_UNESCAPED_UNICODE 将最终数组编码为 JSON
将其包装在<script type="application/ld+json">标签中并输出

面包屑逻辑是最棘手的部分。目的地有三层级结构：地区 → 国家 → 城市。要让 BreadcrumbList 动态反映这个结构，而不硬编码任何内容，意味着在渲染时遍历文章祖先。如果不小心，会很慢。我们在瞬时缓存中按文章 ID 缓存面包屑数组，TTL 为 24 小时。这把开销降到了可以忽略不计的程度。

第3层：验证和监控

生成schema是第一步。知道它何时出现问题是第二步，而大多数团队根本跳过了这一步。

我们建立了一个Google Search Console属性，每周监看Rich Results报告。但这是被动的——GSC在Google爬取页面后告诉你错误。为了进行主动检查，我们每月对前2,000个页面进行SchemaApp爬取。它会显示GSC报告隐藏的属性级错误。

另外：Google 的富媒体结果测试有 API。我们编写了一个小脚本，每晚用 50 个 URL 的随机样本调用 API，并记录任何验证失败。便宜的保险。

---

在不牺牲性能的前提下处理动态数据

大多数规模化实现在这里失败。引用实时数据、定价、可用性、评价计数的Schema必须保持新鲜。但是为91,000个页面的每一次页面加载重新生成JSON-LD并非免费的。

我的做法，我已经在十几个大型网站上完善过：

积极缓存，智能失效。

对于酒店页面，schema blob 作为文章元数据存储，是序列化的 JSON-LD 字符串，仅在以下情况下重新生成：

post本身被更新时
为该post提交了新评论时
价格自定义字段改变了（我们通过 ACF 的 save_post 操作钩取这个）

其他所有情况都提供缓存的字符串。快得要命。因为失效钩子很具体，schema保持准确。

我最初犯的一个错误：我缓存了完整的 <script> 标签，包括开始和关闭元素。然后我们需要为一种内容类型更改 @context URL。必须清除每个缓存条目。现在我只缓存 JSON 字符串，在渲染时包裹它。额外写五分钟代码，省了一小时的头疼。

关于实时价格怎么办？

对于一天内多次变化的旅游价格，我们采取了不同的方法。基础schema被缓存，但 Offer 块在请求时新鲜生成，在序列化前合并。是的，这给每个请求增加了一点开销。但这是每个页面加载一次数据库查询，而不是十二次。可以接受的权衡。

---

扩展到多个网站：Seahawk 的方式

Seahawk 已经建立了超过 12,000 个网站，其中许多网站都涉及模式实现。旅游客户是一个极端案例。但无论你处理的是 91,000 页还是 4,000 页，相同的架构原理都适用。

我采用的可复用模式是一个小型内部 WordPress 插件，我们称之为 seahawk-schema-core，它提供管理器/构建器脚手架，但不包含任何特定内容类型的逻辑。客户项目用自己的构建器类来扩展它。核心 schema 逻辑没有插件依赖。不存在第三方插件更新破坏网站整个富结果展示的风险。

最后这一点比人们承认的更真实。我见过 Rank Math 的更新无声地破坏自定义 schema 覆盖。这不是因为 Rank Math 不好，它很好，但当你在大型网站所需的级别上自定义输出时，你在做这个插件设计之外的事情。掌控代码，掌控风险。

---

这个规模的测试：实用清单

你无法手动测试 91,000 个网址。所以你要聪明地测试。

按模板类型采样。每种内容类型选 10 个 URL。测试这些。如果构建器对一个酒店页面正确，对所有 3000 个酒店页面都正确（除非有坏数据，下面会说）。
特别测试边界情况。没有评论的页面。自定义字段不完整的页面。标题中包含特殊字符的页面（&、"、重音字符）。JSON序列化会清除其中很多，但并非全部。
用 Screaming Frog 进行完整的结构化数据爬取。Screaming Frog SEO Spider 有一个结构化数据提取模式，可以从它爬取的每个 URL 中拉取和验证 JSON-LD。导出错误，按模板类型分组，在源头修复。
监控 GSC 的增强功能标签。设置阈值告警，如果有效项目按周环比下降超过 5%，说明出问题了。在 48 小时内采取行动。
每次部署后进行抽查。即使 schema 代码没有改变。数据库迁移、插件更新、主题更改，任何一个都可能引入上游数据问题，破坏 schema 输出。

坏数据是隐形杀手

这个旅游网站的内容团队有 12 人，分布在三个国家。有些目的地页面的描述字段中有格式错误的 HTML，可能是从 Word 粘贴过来的。当该字段输入 schema description 属性时，JSON 在技术上有效，但描述包含 实体和散落的<span>标签。Google 忽略了该属性。我们在每个构建器类中添加了一个清理步骤，在值输入 schema 数组之前剥离标签并解码 HTML 实体。永久解决了。

---

实体图：不要忽视它

将平庸的 schema 工作与真正优秀的技术 SEO 区分开来的一件事是实体图，特别是应该出现在每个页面上并将所有内容链接在一起的站点范围的 Organization 和 WebSite 实体。

大多数网站都有这些，但做得很差。名称、URL，也许还有一个logo。完整的Organization类型支持指向你的Wikidata条目、社交媒体资料和其他权威来源的sameAs链接。这种交叉链接是Google如何建立信心，确认你的Organization实体在其Knowledge Graph中与出现在你页面schema中的实体是同一个的方式。

对于这个旅游客户，我们构建了Organization块，包含：

sameAs指向他们的Crunchbase资料、LinkedIn页面和他们拥有的Wikipedia条目
包含结构化电话和部门信息的contactPoint
foundingDate 和 numberOfEmployees（粗略范围，这是公开信息）

它一夜之间改变了排名吗？没有。Schema几乎从不单独产生这样的效果。但它是基础设施。你构建一次，做得正确，随着时间推移就会产生复利效应。

---

大规模schema是那种看起来像插件问题，但当你深入其中才意识到它实际上是一个穿着SEO外衣的软件架构问题。把数据模型设计对。缓存要聪明。验证要彻底。schema标记本身几乎是最简单的部分。