AI 搜索引擎的工作原理

Ryan Law的画像

Ryan Law

Ahrefs 内容营销总监

当你让 ChatGPT 推荐最适合健身时佩戴的头戴式耳机时,背后究竟发生了什么?

AI 搜索引擎如何生成答案并挑选产品推荐?它们与 Google 这类传统搜索引擎有什么不同(又有哪些重叠之处)?

更关键的是,你如何帮助的网站、品牌和产品出现在结果里?

感谢 Gianluca FiorelliMark Williams-Cook 审阅并为本章做出贡献。


第1部分

什么是 AI 搜索引擎?

AI 搜索引擎是一种问答系统,利用大语言模型(LLM)来查找信息并生成回复。

传统搜索引擎和 AI 搜索引擎之间存在一些关键差异(尽管随着传统搜索引擎加入更多 AI 功能,这些差异正在缩小):

  • 用户不必只输入一次性问题,而是可以继续追问,让对话持续下去。
  • AI 搜索引擎不会返回按排名排列的链接列表,而是提供直接的答案与推荐(而且这些答案可能会经常变化)。
  • 用户无需跳转到你的网站,而是会在聊天界面中直接得到查询解答(从而减少回到你网站的点击量)。

下面是一个典型 AI 搜索界面的样子,与你在 ChatGPT、Claude 或 AI 模式中看到的类似:

AI 搜索界面示意图,展示提示词、溯源信息、回复、提及和引用
  • 对话式提示词:用户的问题。
  • Grounding 消息:用于表明 LLM 已决定搜索额外信息,以便在回复中使用的一条消息。
  • 回复: AI 针对用户提示词生成的答案。
  • 提及: 在回复文本中以内嵌方式提到的实体(例如你的品牌或产品)。
  • 引用:用于生成回复的来源 URL,通常列在末尾。

要帮助你出现在这类答案中,你首先需要理解让 AI 搜索引擎运转的核心流程。


第2部分

训练的工作原理

LLM 会在海量内容上进行训练,相当于

这些训练数据帮助 LLM 形成对世界的

您知道吗?

实际的训练过程比这里说明的更复杂。其中包括预训练阶段,用于去除 HTML、移除可识别个人身份的信息、排除屏蔽词,并将数据过滤到特定语言。还包括后训练阶段,用于训练语言模型更像一个乐于助人的聊天助手(而不只是下一个令牌的预测器)。想了解更多,请观看 Andrej Karpathy 的视频:Deep Dive into LLMs like ChatGPT

示意图:说明大语言模型如何在 Web 级规模的内容上进行训练
引号

这正是基于实体的 SEO 变得至关重要之处。如果你的品牌持续出现在知识图谱中,使用 Schema 标记进行恰当的结构化,并在全网高质量内容中与相关实体共同出现,你就在训练数据中构建了更强的

Gianluca Fiorelli portrait

Gianluca Fiorelli, 战略与国际 SEO/AI 搜索顾问

关键在于,LLM 有许多

  • 它们具有概率性:你使用同一个提示词,每次都可能得到不同的回复。这种概率特性意味着,你无法像优化关键词那样“针对某个提示词进行优化”。相反,应当从分布的角度思考:在 100 个类似提示词中,你的品牌出现的概率是多少?因此,与其盯着少数几个提示词,不如在大量提示词上跟踪平均可见度。
  • 它们的知识有截止日期: 默认情况下,LLM 的知识范围仅限于该特定模型训练所用数据集中的内容。每个模型只训练一次,使用的是截至某一日期的数据快照。拥有更近期知识截止日期的新模型会定期发布(历史上大约每六个月一次)。
  • 它们会产生幻觉: 它们可能会非常自信地陈述不真实的事情。LLM 生成文本是通过预测接下来最可能出现的词,而不是通过核实事实。尽管它们被训练得尽量有帮助且准确,但并没有内置的事实核查机制,这也是为什么通过网页搜索进行 grounding 如此重要。
引号

一个常见误解是,LLM 会像软件打补丁一样获得“知识更新”。事实上,每个模型只会在固定数据集上训练一次。当你看到新模型发布、知识截止日期更新,那是一个从零开始训练出来的全新模型,并不是对现有模型的更新。

Gianluca Fiorelli portrait

Gianluca Fiorelli, 战略与国际 SEO/AI 搜索顾问

一个会产生幻觉、还会分享过时信息的搜索引擎,听起来并不怎么有用。因此,LLM 通过一种称为 grounding 的过程来克服其中一些限制。


第3部分

grounding 与 RAG 如何运作

LLM 可以通过两种方式验证并改进它们的回答:使用工具(如计算器或其他数据 API),或从外部来源检索更多信息。第二个过程在技术上称为检索增强生成(RAG)。

当用户输入一个问题时,LLM 会自问:“我是否已经知道答案,还是应该获取额外信息?”如果 LLM 能以很高的确定性预测下一个令牌(例如变化不大的问题,如“红细胞的作用是什么?”),它很可能会基于自身的基础知识作答。若确定性较低(对于更容易变化的问题,如“最划算的咖啡研磨机是哪款?”),它就会使用搜索工具,从互联网上的其他来源寻找相关信息。

LLM 会经过微调,以识别那些可能需要补充信息的查询类型,例如:

  • 超出模型训练范围的话题:“Ahrefs 的 Keywords Explorer 使用了哪些内部排名因素?”
  • 需要新鲜或对时间敏感的信息主题: “Google 最近一次核心更新是什么?它是什么时候推送的?”
  • 明确要求进行网页搜索的话题:“在互联网上搜索 2026 年流行的外链建设策略。”
  • 请求来源与证据的提示词: “请提供来源,以证明 Google 在其算法中使用了用户参与度信号。”

某些 LLM 模型也很可能触发额外的搜索(例如,

展示事实锚定与检索增强生成(RAG)如何工作的示意图

通过 RAG 寻找事实依据(通常称为

AI 搜索引擎会通过一种称为“查询扇出”(query fan-out)的过程来进行这种 grounding。


第4部分

查询扇出的工作原理

关键在于,查询扇出解释了为何传统 SEO 对 AI 可见性至关重要。

ChatGPT、Gemini 和 Perplexity 等 AI 助手会使用 Google、Bing、Brave 等搜索索引来获取最新信息。

搜索服务提供商之所以重要,是因为每家都有不同的排序算法、索引和覆盖范围:让你的品牌在 Google 搜索中提高曝光度,对提升你在 AI 模式下的可见度可能比在 ChatGPT 中更有帮助,因为 ChatGPT 更依赖 Bing。

AI 搜索引擎用于 Grounding 的搜索索引
ChatGPT logoChatGPT
Bing, logoBing,
Google logoGoogle
Claude logoClaude
Brave logoBrave
Gemini logoGemini
Google logoGoogle
Copilot logoCopilot
Bing logoBing
Perplexity logoPerplexity
In-house logoIn-house
AI Mode logoAI Mode
Google logoGoogle
AI Overviews logoAI Overviews
Google logoGoogle

当触发网页搜索时,LLM 会从其搜索索引中请求相关结果。搜索索引会返回一个结果列表,LLM 则通过评估网页标题、返回的页面摘要内容以及新鲜度(发布距今多久)等信息,选择最相关的页面进行抓取

为什么 SEO 对 AI 搜索至关重要

这一点值得重复强调:Google 和 Bing 等传统搜索引擎,在帮助 AI 搜索引擎决定在答案中提及和引用哪些内容方面起着关键作用。

换句话说,在传统搜索中排名越靠前,你在 AI 搜索中的可见度就越高。

但 LLM 到底在“搜索”什么?

LLM 使用一种叫作查询扇出的流程。输入到 ChatGPT 和其他 AI 搜索引擎中的许多提示词都极其冗长、偏对话式,而且往往完全独一无二。直接用谷歌搜索这些原始提示词,并不总能返回有用内容。

因此,与其用用户的原始查询直接进行网页搜索……

"我正在为一家中型 B2B SaaS 公司规划一份为期 6 个月的内容策略,该公司向电商品牌销售一款分析产品。公司……"

在 AI 聊天界面中输入一段很长、很详细的用户提示词的示意图

……LLM 会使用最初的提示词生成一系列更短、相关的查询,以帮助检索相关信息。

引号

这些“扇出查询”同样由大语言模型生成,因此具有非确定性:即便是同一次搜索,它们也可能经常变化。

Mark Williams-Cook portrait

Mark Williams-Cook, 创始人,AlsoAsked

这个过程对 SEO 从业者来说应该不陌生:这些相关查询与长尾关键词、子意图以及

  • 常见的 B2B SaaS 内容策略框架
  • SaaS 的 TOFU vs BOFU 内容示例
  • 内容刷新与内链最佳实践
  • 内容驱动的演示增长指标

事实上,ChatGPT、Gemini 和 Copilot 引用的链接中,只有12%会出现在 Google 针对原始用户提示词的前 10 条结果里。不过,这并不意味着传统排名不重要。AI 搜索引擎会通过生成多个搜索查询来检索内容——而这些扇出查询往往更接近传统、以关键词为导向的搜索,这时你已有的 SEO 工作就变得至关重要。

示意图:AI 搜索引擎如何将单个用户提示词扇出为许多相关查询
引号

查询扇出让人更省心:你不必去猜用户会用什么对话式提示词。相反,应针对拆解后的查询进行优化,也就是 LLM 自然会生成的语义组件。这些和传统关键词分析非常相似:[主题] + [限定词]、对比类查询、定义类查询,以及

Gianluca Fiorelli portrait

Gianluca Fiorelli, 战略与国际 SEO/AI 搜索顾问


第5部分

检索、分块与答案综合如何运作

当 LLM 从搜索索引中检索到相关页面后,它并不会通读全文。相反,页面会被切分成更小的文本“块(chunk)”,模型会优先处理(有时还会扩展)那些看起来与查询最相关的文本片段。

这些文本块通常每个包含几百到几千个词,只占大多数网页的一小部分。LLM 也受到严格的上下文窗口限制:它能处理的文本量有限,其中包括用户的提示词、所有检索到的文本块,以及它自己的回复。这意味着它必须非常有选择性地决定要检索并纳入哪些内容。

下面是一个例子:

整页内容“Grounding 是一种工作流程:模型会检索外部来源,提取相关事实,并使用这些摘录来减少幻觉、提升信息的新鲜度……随后它会扫描多个来源、对比信息并综合生成回答,而不是逐字照搬文本。这一步的综合有助于避免过度依赖任何单一来源。”
摘录“解释助手如何通过网页搜索检索外部来源,并通过将回答锚定在检索到的事实上来减少幻觉。”
扩展示例(第 1–2 行)“Grounding 是一种工作流程:模型会检索外部来源,提取相关事实,并使用这些摘录来减少幻觉、提升信息的新鲜度。模型会在发起网页搜索前,评估某个查询是否需要最新或可验证的信息。”
扩展示例(第 33–34 行)“随后它会扫描多个来源、对比信息并综合生成回答,而不是逐字照搬文本。这一步的综合有助于避免过度依赖任何单一来源。”

让 LLM 更容易理解你的内容

这点很重要:当 AI 搜索引擎从互联网上抓取你的内容时,它们只能看到部分摘录,而非整个页面。要最大化内容在 LLM 答案中被引用的概率,你的页面的相关性和价值必须让 LLM 很容易理解,即使没有访问整页内容的权限也是如此。

随后,AI 搜索引擎会将这些文本整合到其响应生成流程中。

原始网页内容会被 grounding 到模型的答案中:在上一步提取出的文本或数据片段会被加入模型的上下文,基本等同于在说:“这里有一些可能有用的网页上下文,现在请用这些信息来回答用户的问题。”


第6部分

引用的选择方式

随后,模型会将其固有知识与检索到的内容结合起来生成答案,并分享给用户。回复通常会包含引用:可点击的 URL,链接到事实锚定过程中使用的来源。

AI 搜索引擎检索到的页面,并不都会在最终答案中获得引用。模型会基于多种因素来选择引用哪些来源:

  • 相关性:检索到的内容在多大程度上直接支撑了回复中的具体观点。
  • 时效性: 来源看起来有多新近。
  • 多样性:引用来源的多样程度(AI 搜索引擎往往更倾向于引用多个不同来源,而不是反复引用同一个来源)。

这意味着,即使你的内容被检索到并被阅读,也无法保证会获得可见的引用;内容必须被认定与答案中的某一具体论断直接相关,才会被引用。


第7部分

个性化如何运作

这就是 AI 搜索引擎工作原理的核心,但还有一层额外的复杂性:个性化。

ChatGPT 和其他 AI 搜索引擎可以为不同用户个性化定制结果,这意味着同一个提示词可能会为不同的人生成不同的结果。个性化可能会受到多种因素影响,包括:

  • 当前对话上下文:同一聊天中的先前消息会影响对当前提示词的回答。比如你提到自己在徒步装备上很看重“耐用性”,那么当你在同一对话后面再询问“背包推荐”时,你可以预期 ChatGPT 会在搜索中把这一标准也纳入考虑。
  • 记忆: 许多 LLM 都有记忆功能,让系统能够跨聊天保留某些事实或偏好。例如,启用记忆后,ChatGPT 会推断并记住你分享过的细节(如你的姓名或兴趣),并在后续对话中使用这些信息来个性化回复。
  • 位置、时间、日期: 许多 AI 搜索引擎能够推断你的相关信息,并据此定制回复——从使用你的 IP 地址来粗略定位(例如“我附近的早午餐”这类查询),到结合日期和时间(“露营打包清单”在冬季可能会建议四季帐篷,在夏季则可能建议三季帐篷)。
  • 系统提示词:系统消息中写明的任何特定偏好都会影响你的对话(在系统提示词中加入
引号

这里有个类比,帮助你理解系统提示词:如果你在踢足球,

Mark Williams-Cook portrait

Mark Williams-Cook, 创始人,AlsoAsked

展示影响 AI 搜索回复的个性化信号示意图

因此,与其纠结于某一次提示词的回复结果,不如在更长的时间维度内、覆盖更多提示词,持续跟踪你的品牌与网站的平均可见度表现。


结语

每个 AI 搜索引擎(从 ChatGPT 到 Perplexity 再到 Google AI Mode)都略有不同,但核心流程基本一致。对 SEO 从业者和营销人员而言尤其重要的是,Google 和 Bing 等传统搜索引擎提供了 AI 搜索引擎运行所需的大量基础设施。要优化 AI 搜索,在很大程度上仍取决于传统 SEO 的最佳实践。

Ryan Law的画像
指南作者:Ryan Law

Ryan Law 是 Ahrefs 的内容营销总监。他拥有 13 年的从业经验,历任作家、内容策略师、团队负责人、营销总监、副总裁、首席营销官(CMO)以及机构创始人。他曾为包括 Google、Zapier、GoDaddy、Clearbit 和 Algolia 在内的数十家公司提供咨询,帮助其改善内容营销和 SEO 表现。此外,他还是一位小说家,同时创办了两门内容营销课程。

逐步掌握 SEO 技巧

/01

搜索引擎的工作原理

在开始学习 SEO 之前,您需要先了解搜索引擎的工作原理。

/02

SEO 基础

了解如何优化网站以获得 SEO 成功,并掌握 SEO 的四大核心要素。

/03

关键词分析

SEO 的起点是了解您的目标客户在搜索什么。

/04

SEO 内容

学习如何创建能在搜索引擎中排名靠前的内容。

/05

页面 SEO

您可以在此处优化页面,以帮助搜索引擎理解它们。

/06

链接建设

链接是搜索引擎发现新页面并评判其“权重”的依据。若没有链接,想要在竞争激烈的关键词中取得高排名将非常困难。

/07

技术性 SEO

确保网站不存在任何技术层面的失误,以免阻碍 Google 访问和解读网站内容,这一点至关重要。

/08

本地 SEO

了解如何提升您在本地搜索结果中的可见度,并从所在地区获得更多客户。

/09

AI 对 SEO 的意义

如今谈到 SEO,已经离不开生成式 AI。

/10

AI 搜索引擎的工作原理

了解 ChatGPT 等 AI 搜索引擎究竟如何生成答案,以及它们会选择提及哪些品牌和产品。