面向 AI 搜索的结构化数据:让你被引用的 Schema
向 AI 引擎提问,它用事实回答你——一个日期、一个价格、一个定义、一个名字。把这些事实最干净地递给它的,往往不是更好的文笔,而是结构化数据:用 [Schema 结构化数据](/glossary#schema-markup) 以机器无需猜测的格式,直接声明你的页面「是什么、说了什么」。这是 [GEO](/glossary#geo) 里最机械、最少玄学的一根杠杆——你不是在说服模型,而是在给自己的事实贴标签,好让它能提取、并把出处记在你名下。下面讲清该标注什么、什么才真正影响引用,以及如何诚实地校验。
什么是 Schema 结构化数据,AI 搜索为什么离不开它?
Schema 结构化数据,是你嵌入页面的一段结构化信息(通常是 JSON-LD),让机器把页面含义当作明确的事实来读,而不是从行文里去推断。AI 引擎依赖它,是因为读取一个已声明的事实,比从句子里猜一个,既更省成本也更安全——而省成本、无歧义的事实,正是它敢复述的那种。
首选格式是 JSON-LD。它以一段独立的 JSON 放在 <script> 标签里,与你可见的 HTML 相互分离——这也是 Google 推荐它、而不推荐把标注缠进内容里的旧式 Microdata、RDFa 的原因。
Schema 不改变人类看到的任何东西。它是一层看不见的标签,说明「这段字符串是作者、这段是发布日期、这段是价格」,把一个机器必须解读的页面,变成一个它可以直接读取的页面。
Schema 结构化数据 之所以是现代搜索里杠杆最高、风险最低的修复之一,正因为它是确定性的。你赌的不是语气或说服力,而是用引擎早已能解析的格式陈述事实——它要么采信,要么不采信,没有中间地带。
对 AI 搜索而言,回报很具体:检索与综合都在有限预算内进行,一个已声明的事实,比一个埋在段落、需要模型推理的事实,提取和采信的代价都低得多。便宜又无歧义的事实,才是能活着进入答案的那种。
- JSON-LD 放在 <script> 标签里,与可见 HTML 分离——Google 推荐的格式。
- 一层看不见的标签,不改变访客看到的任何内容。
- 确定性而非说服性——你陈述事实,而非论证事实。
- 对 AI 引擎而言,比需要解读的行文更省成本、更易采信。
哪些 Schema 类型才真正带来 AI 引用?
五种类型承担了大部分工作:Organization 定义你的品牌,Article 标注每篇文章,FAQPage 与 HowTo 直接给出现成的「问答对」,Product 陈述规格与价格。每一种,都递给引擎一块自洽、且形状已经贴合用户提问的事实。
Organization 是地基,因为它定义了其余一切背后的实体——你的名称、logo、网址,以及为你背书的 sameAs 档案。在首页部署一次,后面每种类型就都有一个品牌可以挂靠。
Article 标注一篇文章的关键部件——标题、作者、发布与修改日期——这恰恰是引擎在判断你的页面是否新鲜、该把功劳记给谁时所核对的元数据。
FAQPage 与 HowTo 是对答案引擎价值最高的类型,因为它们本身就是「问题配上答案」——正是 AI 概览与 Perplexity 生来就要提取的结构。至于底下的文字该怎么写,见如何被 ChatGPT、Perplexity 与 AI 概览引用。
Product 陈述买家问题所依赖的事实——价格、库存、评分、规格——这样当引擎回答「X 多少钱」「X 还有货吗」时,能引用你的页面,而不是某个经销商的。
- Organization —— 你的品牌实体:名称、logo、网址、sameAs,部署在首页。
- Article —— 每篇文章的标题、作者、发布与修改日期。
- FAQPage —— 问答对,为答案引擎现成准备。
- HowTo —— 完成某任务的有序步骤,每一步都能被单独提取。
- Product —— 买家会问的价格、库存、评分与规格。
Schema 如何给 AI 引擎无歧义的事实?
行文有歧义,Schema 没有。一句「2021 年由两位前 Google 工程师创立」,会逼模型去分辨谁是公司、谁是创始人、何时发生;而一个 foundingDate 字段,把它干净地声明一次。Schema 抽掉了「解读」这一步,于是引擎复述的事实,就是你写下的事实。
每一次推断,都是一次出错的机会。当模型必须从句子里推断哪个名字是公司、哪个是创始人,它可能猜错,把你的论断安到错误的实体上——用 Schema,是你替它做了这个判断,而不是把它交给运气。
结构化的事实还能原样传递。从 JSON-LD 字段里取出的价格或日期,会一字不差地出现在答案里;而从行文里抽出的数字,则可能被模型试图概括的周边措辞给扭曲。
这正是 Schema 与「可引用写作」相辅相成、而非彼此替代的原因。行文赢得被提取的资格,Schema 保证其中的事实被正确读取——而被 AI 概览 引用,奖励的恰恰是「可提取 + 一致」这对组合。
但 Schema 只有在与页面一致时才有用。你在标注里声明、却与页面实际内容相矛盾的事实会被打折,因为引擎会两相核对——结构化数据是一项它们会去核实的主张,而非照单全收的信条。
sameAs 如何把你的品牌接入知识图谱?
sameAs 属性列出那些描述「与你站点同一个实体」的权威网址——Wikidata、Crunchbase、LinkedIn、官方社媒。每一条链接,都是你亲手在知识图谱里画下的一条边,告诉引擎:这些档案和这个品牌,是同一个可归一的事物。
Schema 报出你的品牌名,sameAs 则替它作证。谁都能在自家标注里宣称一个身份,所以引擎要找旁证——而一个指向「独立地描述同一实体」的档案的 sameAs 数组,正是这份旁证,集中放在一处。
Wikidata 是杠杆最高的目标,因为它的标识符直接喂给机器知识图谱——但要诚实:它要求真实的知名度,无法凭空捏造。
这些链接必须真实且互指才算数。列出不属于你的、或从不回指的档案,只会添噪音而非增信任;价值在于一小组你真正拥有、且对「你是谁」口径一致的档案。
这是实体 SEO 的 Schema 层,值得单开一篇——实体 SEO:打造被 AI 引用的品牌 讲的正是那份一致性功课,它让这些连接归一成一个强实体,而不是几个弱实体。
- Wikidata 与 Wikipedia —— 结构化、机器可读、喂给知识图谱(需真实知名度)。
- Crunchbase —— 为品类、融资、团队与所在地背书。
- LinkedIn —— 你的官方公司页,与 Schema 口径一致。
- 官方社媒账号 —— 真实、自有,并尽量回指。
如何校验 Schema 又不被打折?
把每个模板用 Google 的 Rich Results Test(富媒体结果测试)对着线上 URL 跑一遍,只标注访客真正看得到的事实,并让标注与页面保持同步。与可见内容相矛盾、或描述根本不存在之物的 Schema 会被打折——极端情况下,还会被判作垃圾。
校验渲染后的页面,而非源码。如果你的 JSON-LD 是由 JavaScript 注入的,就测试引擎真正抓取的那个 URL——Rich Results Test 与 Schema.org 校验器都会显示机器在渲染后看到的版本,而那是唯一算数的版本。
头号铁律是:绝不标注不可见的内容。为页面上并不存在的问题加 FAQPage、为没人看得到的评分加 review,都违反 Google 的规范并会招来人工处罚——标注必须描述真实存在的东西。
让事实在标注、页面与档案之间保持一致。Schema 里的创立年份若与你的「关于」页或 Crunchbase 条目打架,就是给引擎抛了个矛盾,而它安全的处理方式,是三者都不信。
把校验当作日常维护,而非上线时的一次动作。每当页面的内容、价格或日期变动,Schema 都可能悄悄失同步——一变就重校,让你许给机器的事实,始终等于你展示给人的事实。
- 用 Google Rich Results Test 测试线上、渲染后的 URL——而非源码。
- 只标注访客在页面上真正看得到的事实。
- 绝不为不存在的内容添加 FAQ、review 或 HowTo 标注。
- 内容、价格或日期一变动,就重新校验。
这个季度,如何落地能被引用的 Schema?
先做 Organization 和 Article——几乎每个站点都需要的两种——并在线上 URL 上校验。内容本就在回答问题的地方,补上 FAQPage 或 HowTo;有销售的地方,补上 Product。然后让标注与一致的实体信号配对,使这些事实彼此印证。
先做地基类型。首页的 Organization、每篇文章的 Article,覆盖了大部分引用面,只需一个下午,还给后面每种类型提供了一个可挂靠的实体。
在真正合适的地方补上「答案形」类型——FAQPage 与 HowTo 只加在确实包含这些问题与步骤的页面上,绝不为凑一个富媒体结果而硬贴。
用 llms.txt 清单,把引擎引向你最希望被引用、也最结构化的页面——这是把 AI 爬虫导向你最佳答案的一根廉价杠杆。
还要记住,Schema 只是其中一层,不是全部。它保证你的事实被正确读取,但段落本身仍要值得被提取、你的品牌仍要可被归一——这才是被 ChatGPT、Perplexity 与 AI 概览引用的完整路径。
- 先上 Organization + Article,并在线上 URL 校验。
- 内容诚实回答问题的地方,补 FAQPage / HowTo。
- 有销售的地方补 Product——价格、库存、评分。
- 用 llms.txt 清单指向你结构化最好的页面。
让智能体替你执行这套打法
免费开始