让前 1% 的顶尖营销专家加入您的团队

Agent A

AI 搜索引擎的工作原理

Ryan Law的画像

Ryan Law

Ahrefs 内容营销总监

当您让 ChatGPT 推荐最适合健身时佩戴的头戴式耳机时,实际背后的过程是怎样的?

AI 搜索引擎是如何生成答案并选择产品推荐的?它们与 Google 等传统搜索引擎有哪些不同,又在哪些地方仍有共通之处?

更关键的是,如何让你自己的网站、品牌和产品出现在这些 AI 生成的结果中?

感谢 Gianluca FiorelliMark Williams-Cook 对本章的审阅及贡献。


第1部分

什么是 AI 搜索引擎?

AI 搜索引擎是基于大语言模型(LLM)的问答系统,能够检索信息并生成响应。

传统搜索引擎和 AI 搜索引擎之间存在一些关键差异(尽管随着传统搜索引擎加入更多 AI 功能,这些差异正在缩小):

  • 用户不再只是输入一次性的搜索查询,而是可以继续追问后续问题,保持对话的连贯性。
  • AI 搜索引擎不会返回按排名排序的链接列表,而是提供直接的答案与推荐(且这些答案可能会定期变化)。
  • 用户无需跳转到您的网站,而是会在聊天界面中直接得到查询解答(从而导致回流至您网站的点击量减少)。

以下是典型的 AI 搜索界面样式,类似于 ChatGPT、Claude 或 AI 模式中的呈现方式:

AI 搜索界面示意图,展示提示词、事实锚定信息、响应、提及及引用
  • 对话型提示词: 用户的提问内容。
  • 事实锚定信息:用于表明 LLM 已决定搜索额外信息以用于其回答的信息。
  • 响应:AI 针对用户提示词生成的答案。
  • 提及:在回答文本中内联提及的实体(例如品牌或产品)。
  • 引用:用于响应生成的来源 URL,通常列在末尾。

要想让您的内容在此类回答中获得曝光,首先需要了解 AI 搜索引擎运作的核心流程。


第2部分

训练机制

LLM 通过海量数据进行训练,等同于“阅读”了包括整部维基百科、Common Crawl 数据集、Google Books 在内的各类大型语料库,以及数以百万计的网页内容。

训练数据赋予了 LLM 对世界的“认知基础”。如果某耳机品牌在训练数据中高频出现,并且处于相关语境且伴随积极的描述词(如“高性价比”、“适合在健身房使用”等),那么当用户提出与耳机相关的提示词时,该模型有很大概率会在回答中提及该品牌。

您知道吗?

实际的训练流程远比本文描述更为复杂。在预训练阶段,会对数据进行清洗与筛选,包括剔除 HTML 标签、移除个人可识别信息、排除屏蔽词以及限定语言范围等;在后训练阶段,则通过进一步优化,使模型更接近实用型聊天助手(而不仅仅是简单的词元预测器)。要了解更多信息,请观看 Andrej Karpathy 视频深入解析 ChatGPT 等大语言模型

图示说明了大型语言模型如何利用网络规模内容进行训练
引号

这也是实体型 SEO 的关键所在:当您的品牌稳定出现在知识图谱中,通过 schema 标记进行了恰当的结构化,并且在整个互联网的高质量内容中与相关实体共同出现,那么你就在训练数据中构建了更强的“实体信号”。

Gianluca Fiorelli portrait

Gianluca Fiorelli, 战略与国际 SEO/AI 搜索顾问

关键在于,LLM 具有许多独特特性:

  • 它们具有概率性:即使使用相同的提示词,每次也可能得到不同的回答。这种概率特性意味着,你无法像优化关键词那样“针对某个提示词进行优化”。相反,应当从分布的角度思考:在 100 个类似提示词中,你的品牌出现的概率是多少?因此,这就是为什么追踪大量提示词的平均可见度,比死盯住少数几个提示词更有意义。
  • 知识存在截止时间:默认情况下,LLM 的知识范围仅限于该特定模型训练所用数据集中的内容。每个模型只基于某个截止日期之前的数据快照上进行一次性训练,随后会周期性发布具备更新知识截止时间的新模型(历史上大约每六个月左右发布一次)。
  • 幻觉问题:模型可能会自信地给出并不真实的内容。LLM 是通过预测下一个最有可能出现的词来生成文本,而不是通过核实事实。虽然它们在训练中被设定为要有帮助且准确,但模型本身并没有内置的事实核查机制,这也正是通过网页搜索进行事实锚定如此重要的原因。
引号

一个常见的误解是,认为 LLM 会像软件打补丁一样获得“知识更新”。实际情况是,每个模型只在某个固定的数据集上训练一次。当一个知识截止日期更新的新模型发布时,那是一个从零开始训练的全新模型,而不是对现有模型的更新。

Gianluca Fiorelli portrait

Gianluca Fiorelli, 战略与国际 SEO/AI 搜索顾问

一个会产生幻觉、分享过时信息的搜索引擎听起来并不怎么实用。正因如此,LLM 通过一种称为事实锚定的机制来克服其中的某些局限性。


第3部分

事实锚定与 RAG(检索增强生成)的工作原理

LLM 可以通过两种方式验证并改进自己的回答:一是使用工具(如计算器或其他数据 API),二是从外部来源检索额外信息。后者在技术上被称为检索增强生成(RAG)。

用户提问后,LLM会先自我判断:“我是否已经知道答案,还是应该获取额外信息?”如果模型能够以较高确定性预测下一个令牌(例如那些变化不大的问题,如“红细胞的作用是什么?”),它通常会直接基于自身已有知识进行回答。若确定性较低时(例如“最划算的咖啡研磨机是哪款?”这类更容易变化的问题),模型则可能会调用搜索工具,从互联网中的其他来源检索相关信息。

LLM 会经过微调,以识别那些可能需要补充信息的查询类型,例如:

  • 超出模型训练范围的话题:“Ahrefs 的 Keywords Explorer 使用了哪些内部排名因素?”
  • 需要最新或具备时效性的信息主题:“Google 最近一次核心更新是什么?什么时候推出的?”
  • 明确要求进行网页搜索的主题:“在互联网上搜索 2026 年流行的链接建设策略。”
  • 请求提供来源和证据的提示词:“请提供来源,以证明 Google 在其算法中使用了用户参与度信号。”

某些 LLM 模型还非常容易触发额外的搜索(例如,“深度研究”模型就被专门配置为会触发多轮 RAG(检索增强生成)搜索)。

图示展示了事实锚定与检索增强生成(RAG)工作原理

通过 RAG(检索增强生成)寻找真实依据的过程(通常称为“事实锚定”)具有多项优势。LLM(大语言模型)可以对照第三方来源核验自身响应,从而提高事实准确性并减少幻觉。即使其训练数据相对陈旧,模型也能检索并分享最新的信息。此外,它还能提供更详尽、更全面的答案,并在分享任何内容时实现更好的透明度与来源归因。

AI 搜索引擎会通过一种称为“查询扇出”的过程来执行这种事实锚定。


第4部分

查询扇出的工作原理

核心在于,查询扇出揭示了传统 SEO 在 AI 可见度中的重要性。

ChatGPT、Gemini 和 Perplexity 等 AI 助手会使用 Google、Bing、Brave 等搜索索引来获取最新信息。

搜索引擎提供商之所以重要,是因为每家都有不同的排名算法、索引和覆盖范围:让您的品牌在 Google 搜索中可见,可能比在 ChatGPT 中更有助于提升在 AI 模式下的可见度,因为 ChatGPT 更依赖于 Bing 数据。

AI 搜索引擎用于事实锚定的搜索索引
ChatGPT
Bing,
Google
Claude
Brave
Gemini
Google
Copilot
Bing
Perplexity
In-house
AI Mode
Google
AI Overviews
Google

当触发网页搜索时,LLM 会向其搜索索引请求相关结果。搜索索引返回一个结果列表,随后 LLM 会通过评估页面标题、返回的页面摘要内容以及内容新鲜度(即内容发布的距今时间)等信息,选择最相关的页面进行抓取

为什么 SEO 对 AI 搜索至关重要

这一点值得重复强调:Google 和 Bing 等传统搜索引擎,在帮助 AI 搜索引擎决定在答案中提及和引用哪些内容方面起着关键作用。

换句话说,在传统搜索中排名越靠前,你在 AI 搜索中的可见度就越高。

那么,LLM 到底检索的是什么?

LLM 使用一种称为 查询扇出 的流程。输入到 ChatGPT 和其他 AI 搜索引擎中的许多提示词都极其冗长、对话性强,而且往往是完全独一无二的。直接将这些提示词复制到 Google 中搜索,并不总能返回有用的内容。

因此,系统不会简单地用用户的原始查询直接进行网页搜索……

"我正在为一家中型 B2B SaaS 公司规划一份为期 6 个月的内容策略,该公司向电商品牌销售一款数据分析产品。该公司……"

AI 聊天界面中的长篇详细用户提示词的示意图

……LLM 会利用初始提示词,生成一系列更短的相关查询,以帮助检索相关信息。

引号

这些“扇出查询”同样由大语言模型生成,因此具有非确定性:即使相同的搜索,每次的结果也可能不同。

Mark Williams-Cook portrait

Mark Williams-Cook, AlsoAsked 创始人

这一过程对 SEO 从业者来说应该并不陌生:这些相关查询与长尾关键词、子意图以及 People Also Ask 中的问题非常相似:

  • B2B SaaS 常见内容营销策略框架
  • SaaS 的 TOFU vs BOFU 内容示例
  • 内容刷新与内部链接最佳实践
  • 内容驱动型演示增长的衡量指标

事实上,ChatGPT、Gemini 和 Copilot 引用的链接中,仅有 12% 出现在用户原始提示词对应的 Google 搜索前 10 条结果中。然而,这并不意味着传统的排名无关紧要。AI 搜索引擎通过生成多个搜索查询来检索内容——而这些扇出查询往往更接近传统的、以关键词为导向的搜索,恰恰是你现有 SEO 工作能发挥巨大作用的地方。

图示展示了 AI 搜索引擎如何将单一用户提示词扇出为多个相关查询
引号

查询扇出让人更省心:你不必去猜用户会用哪些对话型提示词。相反,应针对拆解后的查询进行优化,也就是 LLM 自然生成的语义组件。这些和传统关键词分析非常相似:[主题] + [限定词]、对比类查询、定义类查询,以及“最佳实践”类内容。你现有的 SEO 研究很可能已经覆盖了这些扇出空间。

Gianluca Fiorelli portrait

Gianluca Fiorelli, 战略与国际 SEO/AI 搜索顾问


第5部分

检索、分块与答案合成的工作原理

当 LLM 从搜索索引中获取相关页面后,并不会逐字阅读全文,而是将页面拆分为多个文本块(chunks),并优先关注(必要时扩展)与用户查询最相关的文本片段。

这些文本块通常每个包含几百到几千个词,只占大多数网页的一小部分。LLM 也受到严格的上下文窗口限制:它能处理的文本量有限,其中包括用户的提示词、所有检索到的文本块,以及自身生成的回答。这意味着它必须对检索和纳入内容具有高度选择性。

举个例子:

整页内容“事实锚定是一种工作流程:模型会检索外部信息来源,提取相关事实,并利用这些信息来减少幻觉、提升内容新鲜度……随后,它会扫描多个来源、比对信息并综合生成回答,而不是逐字照搬文本。这一整合步骤有助于避免过度依赖单一来源。”
摘要“阐释 AI 助手如何利用网页搜索检索外部内容来源,借助检索到的事实对回答进行事实锚定,以降低幻觉、提升信息可信度。”
扩展说明(第 1–2 行)“事实锚定是一种工作流程:模型会检索外部信息来源,提取相关事实,并利用这些信息来减少幻觉、提升内容新鲜度。模型会先评估某个查询是否需要最新或可验证的信息,再决定是否发起网络搜索。”
扩展说明(第 33–34 行)“随后,它会扫描多个来源、比对信息并综合生成回答,而不是逐字照搬文本。这一整合步骤有助于避免过度依赖单一来源。”

让 LLM 能够更轻松理解你的内容

这点非常重要:当 AI 搜索引擎从互联网上抓取你的内容时,它们通常只能看到部分摘要,而无法获取整个页面。要最大化内容在 LLM 答案中被引用的概率,即使模型无法访问完整页面,页面的相关性和价值也必须能够被 LLM 轻松理解。

随后,AI 搜索引擎会将这些文本整合到其响应生成流程中。

原始网页内容会被进行事实锚定并融入模型的答案中:在上一步中提取的文本片段或数据会被加入模型的上下文中,本质上相当于在提示模型:“这里有一些可能有用的网页上下文,现在请结合这些信息来回答用户的问题。”


第6部分

引用的选择方式

随后,模型会将其固有知识与检索到的内容相结合生成答案,并将结果分享给用户。响应通常会包含引用:即可点击的 URL 链接,指向在事实锚定过程中使用到的信息来源。

AI 搜索引擎检索到的页面并不会全部在最终回答中被引用,模型会基于多种因素决定引用哪些来源:

  • 相关性:检索到的内容对响应中具体观点的直接支持程度。
  • 内容新鲜度:来源内容的更新是否及时、是否为最新信息。
  • 多样性: 指引用来源的多样化程度(AI 搜索引擎通常更倾向于引用多个不同来源,而不是反复引用同一个来源)。

这意味着,即使你的内容被检索并读取,也并不保证一定会获得可见引用;只有当内容被判断为与答案中的某个具体论断直接相关时,才更有可能被引用。


第7部分

个性化机制的工作原理

这就是 AI 搜索引擎运作的核心机制,但还有一个额外的复杂层面:个性化。

ChatGPT 及其他 AI 搜索引擎能够根据不同用户定制个性化搜索结果,即相同的提示词在不同用户侧可能产生不同的结果。这种个性化受多种因素影响,包括:

  • 当前对话上下文:同一聊天中的历史消息会影响对当前提示词的回答。比如,你在对话中提到自己很看重徒步装备的“耐用性”,那么当后续询问“背包推荐”时,ChatGPT 就很可能在搜索中纳入这一标准。
  • 记忆:许多 LLM 都具备记忆功能,使系统在不同对话之间保留特定事实或偏好。例如,在开启记忆功能后,ChatGPT 会自动识别并记住用户分享过的细节(如姓名或兴趣爱好),并在后续对话中融入这些信息,以实现个性化回答。
  • 地点、时间、日期:许多 AI 搜索引擎能够推断出与用户相关的信息并据此定制回答——从利用用户的 IP 地址来粗略定位(例如“我附近的早午餐”),到结合日期和时间调整建议(例如,“露营装备清单”在冬季可能会推荐四季帐,而在夏季则推荐三季帐)。
  • 系统提示词:在系统消息中设定的任何特定偏好都会影响对话内容(例如,在系统提示词中加入“记住我是素食者”,就会影响对“健康早餐建议”这类提示词的回答)。
引号

这里有一个类比,可以帮助理解系统提示词。假设你在踢足球,“训练数据”就是你多年来的所有训练积累,是长期形成的肌肉记忆。而系统提示词则像是教练在你上场前最后给你的战术指示,它是一种更强的短期记忆,对最终表现的影响更为直接。

Mark Williams-Cook portrait

Mark Williams-Cook, AlsoAsked 创始人

图示展示了影响 AI 搜索响应的个性化信号

因此,建议从整体视角跟踪品牌与网站在不同提示词、不同时间维度下的平均可见度,而不是纠结于某一次单一提示词的回答结果。


结语

每个 AI 搜索引擎(从 ChatGPT 到 Perplexity 再到 Google AI Mode)都略有不同,但核心流程基本一致。对 SEO 从业者和营销人员而言尤其重要的是,Google 和 Bing 等传统搜索引擎提供了 AI 搜索引擎运行所需的大量基础设施。因此,针对 AI 搜索的优化,在很大程度上仍依赖于传统的 SEO 最佳实践。

Ryan Law的画像
指南作者:Ryan Law

Ryan Law 是 Ahrefs 的内容营销总监。他拥有 13 年的从业经验,历任作家、内容策略师、团队负责人、营销总监、副总裁、首席营销官(CMO)以及机构创始人。他曾为包括 Google、Zapier、GoDaddy、Clearbit 和 Algolia 在内的数十家公司提供咨询,帮助其改善内容营销和 SEO 表现。此外,他还是一位小说家,同时创办了两门内容营销课程。

逐步掌握 SEO 技巧

/01

搜索引擎的工作原理

在开始学习 SEO 之前,您需要先了解搜索引擎的工作原理。

/02

SEO 基础

了解如何优化网站以获得 SEO 成功,并掌握 SEO 的四大核心要素。

/03

关键词分析

SEO 的起点是了解您的目标客户在搜索什么。

/04

SEO 内容

学习如何创建能在搜索引擎中排名靠前的内容。

/05

页面 SEO

您可以在此处优化页面,以帮助搜索引擎理解它们。

/06

链接建设

学习如何创建能在搜索引擎中排名靠前的内容。

/07

技术性 SEO

避免出现技术问题,防止 Google 无法访问及理解网站。

/08

本地 SEO

了解如何提升您在本地搜索结果中的可见度,并从所在地区获得更多客户。

/09

AI 对 SEO 的意义

如今谈到 SEO,已经离不开生成式 AI。

/10

AI 搜索引擎的工作原理

深入了解 ChatGPT 等 AI 搜索引擎究竟如何生成答案,以及如何选择要提及哪些品牌和产品。