技术性SEO初学者指南

Patrick Stox

Ahrefs 的技术性 SEO

技术性 SEO 在不重要之前,一直是 SEO 中最重要的部分。页面必须可抓取、可索引,才有排名的机会,但与内容和链接相比,许多其他活动的影响都很小。

我们写了这份新手指南,帮助你理解一些基础知识,以及把时间投入到哪里能获得最大影响。


第1部分

技术性 SEO 基础

什么是技术性 SEO?

技术性 SEO 是一套优化网站的做法,旨在帮助搜索引擎找到、抓取、理解并索引你的页面。它有助于提高你在搜索引擎中的可见性和排名。对 AI 搜索也同样重要。

技术性 SEO 有多复杂?

这要看情况。基本功其实不难掌握,但技术性 SEO 可能很复杂,也很难理解。我会在这份指南里尽量把内容讲得简单。

技术性 SEO 对 AI 搜索重要吗?

是的。AI 搜索仍然依赖可抓取、结构良好且可信的网页。技术性 SEO 可确保你的网站速度快、可访问且可索引,这些都会提升你的内容在 AI 驱动答案以及传统搜索中被采用的机会。


第2部分

了解抓取

在本章中,我们将介绍如何确保搜索引擎能够高效抓取你的内容。

抓取的工作原理

抓取是指搜索引擎从网页中获取内容,并使用页面上的链接来发现更多网页。你可以通过几种方式控制你的网站上哪些内容会被抓取。以下是一些选项。

Robots.txt

robots.txt 文件会告诉搜索引擎和 AI 平台,在你的网站上哪些地方能去、哪些地方不能去。

大多数搜索引擎和 AI 爬虫都会遵守你的 robots.txt 设置。如果你明确禁止它们,它们就会照做,不会抓取你的内容或将其纳入训练数据。但如果你阻止搜索引擎和 LLM 将你的网站作为训练材料,也会降低你在它们回答中被展示的机会。

您知道吗?

如果有链接指向某些页面,即使 Google 和一些 LLM 无法抓取这些页面,也可能会将其编入索引。这可能会让人困惑,但如果你想避免页面被索引,可以查看这个 指南和流程图,它会引导你完成整个过程。

LLMs.txt

LLMs.txt 是一项自愿标准,用于告诉大型语言模型 (LLMs) 它们可以如何使用你的内容。但正如我们在LLMs.txt 指南中所解释的,它并不特别有效,可能也不值得投入精力。

目前还没有证据表明 LLMs.txt 能改善 AI 检索、增强流量,或提高模型准确性。

抓取速率

你可以在 robots.txt 中使用一条 crawl-delay 指令,许多爬虫都支持。它可以让你设置它们抓取页面的频率。但遗憾的是,Google 不遵守这一点。[1] 对于 Google,你需要在 Google Search Console 中更改抓取速率。[2]

访问限制

如果你希望页面对部分用户可访问,但不希望搜索引擎访问,那么你可能需要以下三种方案之一:

  • 某种登录系统
  • HTTP 身份验证(需要密码才能访问)
  • IP 白名单(只允许特定 IP 地址访问页面)

这种设置最适合用于内部网络、仅会员可见内容,或用于暂存、测试或开发站点。它允许一组用户访问该页面,但搜索引擎无法访问该页面,也不会对其进行索引。

如何查看抓取活动

针对 Google 来说,最简单的查看其抓取内容方式,是在 Google Search Console 中查看“抓取统计信息”报告,它会提供更多关于它如何抓取你网站的信息。

如果你想查看网站上的所有抓取活动(包括来自 AI 爬虫的抓取),那么你需要访问服务器日志,并可能使用工具来更好地分析数据。这可能会相当进阶。但如果你的主机提供类似 cPanel 的控制面板,你应该可以访问原始日志,以及一些聚合工具,例如 AWstats 和 Webalizer。

抓取调整

每个网站都有不同的 抓取预算,它由 Google 想抓取某个网站的频率,以及你的网站允许被抓取的程度共同决定。更受欢迎、且经常变化的页面会被更频繁地抓取;而那些看起来不够受欢迎或链接较少的页面,则会被较少抓取。

如果爬虫在抓取你的网站时看到压力迹象,它们通常会减慢速度,甚至停止抓取,直到情况好转。

页面被抓取后,会被渲染并发送到索引中。索引是一个主列表,包含可用于响应搜索查询并返回的页面。我们来聊聊索引。


第3部分

了解索引

在本章中,我们将讨论如何确保你的页面被编入索引,以及如何检查它们是如何被编入索引的。

爬虫指令

robots meta 标签是一段 HTML 代码片段,用于告诉搜索引擎如何抓取或索引某个页面。它放在网页的 <head> 部分,看起来像这样:

<meta name="robots" content="noindex" />

规范化

当出现重复内容并生成同一页面的多个版本时,Google 会选择其中一个存入索引。这个过程称为规范化,被选为规范 URL 的那个链接将是 Google 在搜索结果中展示的链接。Google 会使用许多不同信号来选择规范 URL,包括:

查看 Google 如何收录某个页面最简单的方法,是在 Google Search Console 中使用网址检查工具。它会向你显示 Google 选择的规范 URL。

在 Google Search Console 中检查某个 URL 的索引情况

第4部分

技术性 SEO 的快速见效点

对 SEO 来说,最难的事情之一就是排优先级。有很多最佳实践,但有些改动对排名和流量的影响会比其他改动更大。以下是我建议优先推进的一些项目。

检查索引

确保你希望用户能找到的页面可以被 Google 索引。前两章都在讲抓取和索引,这并非偶然。

你可以在 Site Audit 中查看 Indexability 报告,找到无法被索引的页面以及原因。它在 Ahrefs Webmaster Tools 中免费提供。

在 Ahrefs 的 Site Audit 中查找 noindexed 页面

运行一次免费的技术性 SEO 审计

在此注册即可免费获得 Ahrefs Webmaster Tools ↗

找回丢失的链接

网站往往会在多年间更改 URL。很多情况下,这些旧 URL 会有来自其他网站的链接。如果它们没有重定向到当前页面,那么这些链接就会丢失,不再计入你的页面。现在做这些重定向也不晚,而且你可以快速回收任何损失的价值。把这当作你做过的最快的一次链接建设。

你可以使用 Ahrefs 的 Site Explorer 找到回收失效链接的机会。输入你的域名,进入 按反链数量排序 报告,然后添加一个“404 not found”的 HTTP 响应筛选器。我通常会按“引用域名”排序。

这就是 1800flowers.com 的示例:

在 Ahrefs 的 Site Explorer 中查找带反向链接的 404 页面

查看 archive.org 中的第一个 URL,我发现它以前是母亲节页面。把那个页面重定向到当前版本后,你将回收来自 59 个不同网站的 225 条链接——而且还有更多机会。

我甚至创建了一个脚本来帮助你匹配重定向。别被吓到;你只需要下载几个文件并上传即可。Colab notebook 会一步步带你完成,并替你处理繁重工作。

你需要把任何旧 URL 301 重定向到它们当前的位置,以找回这部分丢失的价值。

您知道吗?

301 重定向是一种永久重定向。在 Google 看来,任何指向被重定向 URL 的链接都会计入新的 URL。[3]

添加内部链接

内链是从你网站的一个页面指向你网站另一个页面的链接。它们有助于页面被发现,也能帮助页面获得更好的排名。我们在 Site Audit 中有一个名为 Internal Link Opportunities 的工具,可帮助你快速定位这些机会。

该工具会查找你的网站上已经有排名的关键词提及,然后将其建议为可添加语境相关内链的机会。

例如,工具在我们的重复内容指南中发现提到“分面导航”。由于 Site Audit 知道我们有一个关于分面导航的页面,它建议我们添加一条指向该页面的内链。

在 Ahrefs 的 Site Audit 中查找内链机会

添加 Schema 标记

Schema 标记是一段代码,可帮助搜索引擎更好地理解你的内容,并支持许多功能,让你的网站在搜索结果中脱颖而出。它也可能帮助 LLMs 正确解读你的页面内容。Google 有一个搜索图库,展示各种搜索功能以及让你的网站符合条件所需的 schema。


第5部分

面向 AI 搜索的技术性 SEO

AI 改变了内容被搜索者发现与展示的方式,但它仍然依赖可抓取、结构良好且可信的网页这一基础。它也正在改变我们创建与优化内容的方式。

关注一些针对 AI 的技术因素,可以帮助你在用户搜索信息的任何地方保持可见性。

让 LLMs 可以访问你的网站

与搜索引擎类似,LLM 需要能够抓取你的网站并访问其内容。不过,它们的工作方式与搜索引擎爬虫略有不同。

例如,大多数 LLM 不会渲染 JavaScript(这是一种常用于构建网站的编程语言)。如果关键内容或导航只在 JavaScript 加载后才出现,就存在某些 AI 爬虫看不到它的风险。因此,最好避免在任何你希望在 AI 搜索中可见的关键内容上使用它。

也值得检查一下,第三方工具是否阻止 AI 爬虫访问你的网站。

例如,Cloudflare 推出了新功能,让网站所有者可以控制 AI 平台是否可以抓取内容,用于它们的训练数据集。

用于控制 AI 爬虫访问你网站的 Cloudflare 设置

默认设置会阻止 AI 爬虫访问内容。不过,如果你希望内容在 AI 搜索结果中最大化可见性,就需要把它关闭。

重定向幻觉 URL

AI 搜索系统可能会引用你域名下并不存在的 URL。你可以在 Ahrefs 的 Web Analytics 中,通过查看接收 AI 搜索流量的页面来发现这些 URL:

在 Ahrefs Web Analytics 中发现幻觉 URL

如果这些页面中有任何一个返回 404 错误,AI 系统可能就是“幻觉”出了这个 URL。为了避免流量损失,你可以将该 URL 重定向到一个相关且可访问的页面。

定期监测可以避免用户受挫,并保护品牌权威性。

AI 内容检测

虽然使用 AI 为你的网站创建内容没问题,但过多的 AI 内容可能会被 视为垃圾信号,从而限制你的内容在传统搜索和 AI 搜索系统中的可见性。

Google 关于 AI 内容是否违反搜索指南的 FAQ

你可以在 Site Explorer > Page Inspect 中使用 Ahrefs 的 AI 检测器,查看机器可能如何解读你的内容中使用 AI 的程度。

在 Site Explorer Page Inspect 中使用 Ahrefs 的 AI 检测器

你也可以在 热门页面 报告中批量检查,以找出可能需要重写的现有页面:

在 Ahrefs 的热门页面报告中批量检查 AI 内容水平

由 AI 工具注入的代码

如果你使用 AI 来帮助搭建网站或为其添加新功能,它们可能会加入额外的 HTML 代码,从而暴露你使用了 AI。

有一次,Yoast SEO 的一个 bug 往页面中插入了隐藏的 AI 相关类,让搜索引擎一眼就能看出有 AI 参与。

Yoast SEO 的一个 bug 注入的 AI 相关代码示例

如果你使用 AI 工具进行页面内改动,请检查你的网站源代码,确保没有添加任何意料之外的内容。像这样隐藏的“指纹”可以通过定期代码审查以及在发布更新前进行测试来避免。


第6部分

其他技术性 SEO 项目

本章要讨论的这些项目都是很值得关注的内容,但它们可能需要更多工作,收益也可能不如上一部分的“快速见效”项目。这并不代表你不应该做它们。这只是为了帮助你了解该如何给不同项目排优先级。

页面体验信号

这些是次要的排名因素,但为了用户体验,你仍然需要关注。它们涵盖了影响用户体验 (UX) 的网站方面。

Google 的页面体验搜索信号

Google 的页面体验搜索信号

https://ahrefs.com/blog/core-web-vitals/

核心网页指标

Core Web Vitals 是速度指标,属于 Google 的页面体验信号的一部分,用于衡量用户体验。该指标用 Largest Contentful Paint (LCP) 衡量视觉加载速度,用 Cumulative Layout Shift (CLS) 衡量视觉稳定性,用 First Input Delay (FID) 衡量交互性。

HTTPS

HTTPS 可保护浏览器与服务器之间的通信不被攻击者拦截或篡改。这为当今绝大多数 WWW 流量提供了机密性、完整性和身份验证。你希望页面通过 HTTPS 而不是 HTTP 加载。

任何在地址栏显示“锁”图标的网站都在使用 HTTPS。

浏览器地址栏显示 ahrefs.com 的锁形图标,表示安全的 HTTPS 连接

移动端友好性

简单来说,这会检查网页在移动设备上是否能正常显示,以及是否便于人们使用。

如何知道你的网站对移动设备有多友好?在 Google Search Console 中查看“移动设备易用性”报告。

Google Search Console Mobile Usability 报告显示诸如可点击元素距离过近、文本过小无法阅读等问题

此报告会告诉你,你的哪些页面存在移动设备友好性问题。

插页式弹窗

插页式广告会阻止内容被看到。这些是覆盖主要内容的弹窗,用户可能需要先与之交互,它们才会消失。

Hreflang — 适用于多种语言

Hreflang 是一个 HTML 属性,用于指定网页的语言和地理定位。如果你在不同语言下有同一页面的多个版本,可以使用 hreflang 标签告知 Google 等搜索引擎这些变体,从而帮助它们向用户提供正确的版本。

Ahrefs 现在通过在 Site Audit 中提供可视化的 hreflang 链接图,让 hreflang 的实现更简单。

Ahrefs Site Audit 显示一个可视化的 hreflang 链接图,展示页面不同语言版本之间的连接

这张 hreflang 图表展示了页面的所有语言版本,并突出显示任何配置问题。此外,它还会标记诸如语言代码无效、缺少自引用链接、缺少相互标签等错误,并给出清晰的修复指引。

常规维护/网站健康状况

这些任务不太可能对你的排名产生很大影响,但通常对用户体验来说是很值得修复的问题。

失效链接

失效链接是你网站上指向不存在资源的链接。它们可能是内部链接(即指向你域名下的其他页面),也可能是外部链接(即指向其他域名下的页面)。

你可以在 Site AuditLinks 报告中快速找到网站上的失效链接。它在 Ahrefs Webmaster Tools 中免费提供。

Ahrefs Site Audit 的 Links 报告显示内部链接、损坏的内部链接、外部链接和损坏的外部链接数量

重定向链

重定向链是指从初始 URL 到目标 URL 之间发生的一系列重定向。

你可以在 Redirects 报告中使用 Site Audit 快速找到你网站上的重定向链。它在 Ahrefs Webmaster Tools 中是免费的。

Ahrefs Site Audit 的 Redirects 报告展示内部 URL 重定向、重定向链和重定向循环

第7部分

技术性 SEO 工具

这些工具可帮助你改进网站的技术层面。

Google Search Console 概览 Dashboard 显示随时间变化的总点击性能图表

Google Search Console(以前叫 Google Webmaster Tools)是 Google 提供的一项免费服务,可帮助你监控并排查你的网站在其搜索结果中的展示情况。

用它来查找并修复技术错误、提交站点地图、查看结构化数据问题等等。

BingYandex 都有各自的版本,Ahrefs 也有。Ahrefs Webmaster Tools 是一个免费的工具,可帮助你提升网站的 SEO 表现。它允许你:

  • 监控您网站的 SEO 健康状况.
  • 检查 100 多个 SEO 问题.
  • 查看所有反向链接.
  • 查看您排名靠前的所有关键词.
  • 了解你的页面正在获得多少流量。
  • 查找内部链接机会.

这是我们针对 Google Search Console 局限性的解决方案。

Google Mobile-Friendly Test 结果显示某个页面在移动设备上可用

Google 的移动设备友好性测试会检查访客在移动设备上使用你的页面是否方便。它还会识别具体的移动可用性问题,比如文字太小难以阅读、使用了不兼容的插件等。

移动设备友好性测试会显示 Google 在抓取页面时看到的内容。你也可以使用 Rich Results Test 来查看 Google 在桌面或移动设备上看到的内容。

Chrome DevTools 的 Elements 面板正在检查网页上的一个 H1 标签

Chrome DevTools 是 Chrome 内置的网页调试工具。你可以用它来调试页面速度问题、提升网页渲染性能等。

从技术性 SEO 的角度来看,它有无穷无尽的用途。

Ahrefs SEO Toolbar 浏览器扩展显示域名和页面指标,包括域名评分、反向链接、关键词和 Core Web Vitals

Ahrefs SEO 工具栏是一款适用于 ChromeFirefox 的免费扩展,可为你访问的页面和网站提供有用的 SEO 数据。

它的免费功能包括:

  • 页面内 SEO 报告
  • 带 HTTP 标头的重定向追踪器
  • 失效链接检查器
  • 链接高亮器
  • SERP 排名

此外,作为 Ahrefs 用户,你还可以获得:

  • 你访问的每个网站和页面的 SEO 指标,以及 Google 搜索结果的 SEO 指标
  • SERP 中直接显示关键词指标,例如搜索量和关键词难度
  • SERP 结果导出
Google PageSpeed Insights 显示桌面端网页的性能评分为 81

PageSpeed Insights 会分析网页的加载速度。除了性能评分之外,它还会给出可执行的建议,帮助页面加载得更快。

关键要点

  • 如果你的内容未被收录,那么搜索引擎就无法找到它。
  • 当出现影响搜索流量的故障时,它可能是需要优先修复的问题。但对大多数网站来说,你可能更应该把时间花在内容和链接上。
  • 影响最大的许多技术项目通常围绕索引或链接展开。
  • 技术性 SEO 对 AI 搜索仍然很重要。结构良好、可抓取的页面有助于 AI 系统找到、理解并呈现你的内容。

引用值

  1. “Is a crawl-delay rule ignored by Googlebot?”。Google Search Central。2017 年 12 月 21 日
  2. “Change Googlebot crawl rate”。Google。检索日期:2022 年 9 月 9 日
  3. “30x 重定向不再丢失 PageRank 了”。Gary Illyes。2016 年 7 月 26 日
指南作者:Patrick Stox

Patrick Stox 是 Ahrefs 的产品顾问、技术性 SEO 以及品牌大使。他是 2021 Web Almanac 中 SEO 章节的主笔作者,以及 2022 SEO 章节的审阅者。他还与人合著了 Ahrefs 的《SEO Book For Beginners》,并担任《The Art of SEO》第 4 版的技术审阅编辑。他是 Triangle SEO Meetup 的组织者之一,也是 Tech SEO Connect 大会的组织者;他运营一个技术性 SEO 的 Slack 群组,并担任 Reddit 上 /r/TechSEO 的版主。

逐步掌握 SEO 技巧

/01

搜索引擎的工作原理

在开始学习 SEO 之前,您需要先了解搜索引擎的工作原理。

/02

SEO 基础

了解如何优化网站以获得 SEO 成功,并掌握 SEO 的四大核心要素。

/03

关键词分析

SEO 的起点是了解您的目标客户在搜索什么。

/04

SEO 内容

学习如何创建能在搜索引擎中排名靠前的内容。

/05

页面 SEO

您可以在此处优化页面,以帮助搜索引擎理解它们。

/06

链接建设

链接是搜索引擎发现新页面并评判其“权重”的依据。若没有链接,想要在竞争激烈的关键词中取得高排名将非常困难。

/07

技术性 SEO

确保网站不存在任何技术层面的失误,以免阻碍 Google 访问和解读网站内容,这一点至关重要。

/08

AI 对 SEO 的意义

如今谈到 SEO,已经离不开生成式 AI。