谷歌搜索引擎优化指南 谷歌搜索引擎优化指南 谷歌搜索引擎优化指南 谷歌搜索引擎优化指南
  • 首页
  • 谷歌SEO工具
    • 关键词工具
    • 内容SEO工具
    • 链接查询分析工具
    • 排名监控工具
    • 网站SEO分析工具
    • 谷歌浏览器SEO插件
  • WordPress主题
  • WordPress插件
  • 谷歌SEO优化官方文档
  • 排行榜
  • 提交工具
谷歌搜索引擎优化指南 谷歌搜索引擎优化指南
  • 首页
  • 谷歌SEO工具
    • 关键词工具
    • 内容SEO工具
      • AI写作工具
    • 链接查询分析工具
    • 排名监控工具
    • 网站SEO分析工具
    • 谷歌浏览器SEO插件
  • WordPress主题
    • WordPress插件
  • 谷歌SEO优化指南
    • Google搜索要素
    • SEO基础知识
    • Google抓取和编入索引
    • Google排名和搜索结果呈现
      • 排名算法系统
      • 结构化数据
      • 页面体验
    • 监控和调试
    • 针对特定网站的指南
  • 谷歌SEO技术
    • 谷歌SEO入门教程
  • SEO工具使用指南

谷歌SEO优化指南(新版)

  • 谷歌搜索引擎优化(SEO)简介
  • Google搜索要素
    • Google 搜索要素概览
    • Google 搜索技术要求
    • 适用于 Google 网页搜索的垃圾内容政策
  • SEO基础知识
    • 使您的网站显示在 Google 搜索结果中
    • 关于 Google 搜索运作方式的深度指南
    • 创建实用、可靠、以用户为中心的内容
    • 谷歌搜索引擎优化 (SEO) 新手指南
    • 您需要 SEO 吗?什么是 SEO 专家?
    • 维持网站的SEO效果(技术型SEO技巧与策略)
    • Google 搜索使用入门:开发者搜索指南
  • Google抓取和编入索引
    • 抓取和索引编制主题概览
    • Google可编入索引的文件类型
    • GoogleSEO网址结构最佳实践(Google网址结构准则)
    • GoogleSEO链接最佳实践(内链、外部链接)
    • 关于移动网站和优先将移动版网站编入索引的最佳实践
    • 站点地图Sitemap
      • 了解站点地图(什么是站点地图Sitemap)
      • 创建和提交站点地图(Sitemap格式规范)
      • 使用站点地图索引文件管理站点地图(拆分较大的站点地图)
      • 图片站点地图格式和规范
      • Google新闻站点地图格式和规范
      • 视频站点地图和替代方案(视频站点地图示例)
      • 如何结合使用站点地图扩展
    • 抓取工具管理
      • 请求 Google 重新抓取您的网站网址
      • 减慢Googlebot的抓取速度
      • 验证Googlebot和其他Google抓取工具
      • 面向大型网站所有者的抓取预算管理指南
      • HTTP 状态代码以及网络连接错误和 DNS 错误对 Google 搜索有何影响
      • Google抓取工具和抓取器(用户代理)概览
      • Googlebot-什么是Googlebot
      • Google Read Aloud 用户代理
      • APIs-Google 用户代理
      • Feedfetcher
    • Robots.txt
      • Robots.txt简介与指南
      • 如何编写和提交robots.txt文件(robots协议规则写法)
      • 更新robots.txt文件
      • Google如何解读robots.txt规范
    • 网址规范化
      • 什么是网址规范化
      • 如何使用rel=”canonical”及其他方法指定规范网址
      • 解决规范化问题
    • AMP
      • 与 Google 搜索中的 AMP 网页相关的准则
      • 了解AMP在搜索结果中的运作原理
      • 增强在Google搜索结果中显示的AMP内容
      • 验证AMP内容是否可以显示在Google搜索结果中
      • 从 Google 搜索结果中移除 AMP 网页
    • JavaScript
      • 了解JavaScriptSEO基础知识
      • 解决与 Google 搜索相关的 JavaScript 问题
      • 修正延迟加载的网站内容
      • 将动态呈现作为临时解决方法
    • 网页和内容元数据
      • Google搜索的有效页面元数据
      • Google支持的meta标记和属性
      • 漫游器元标记规范(Robots meta标记、data-nosnippet和X-Robots-Tag规范)
      • 使用noindex阻止搜索引擎编入索引
      • 安全搜索功能和您的网站
      • 向Google说明您的出站链接的用意(rel属性)
    • 删除
      • 控制您在Google搜索中分享的内容
      • 从Google搜索结果中移除您网站上托管的网页
      • 从搜索结果中移除您网站上托管的图片
      • 让隐去的信息不显示在 Google 搜索中
    • 网站迁移和变更
      • 重定向和Google搜索
      • 网站更换托管服务提供商或迁移到内容分发网络 (CDN)
      • 在更改网址的情况下迁移网站
      • 有关在Google搜索中进行A/B测试的最佳实践
      • 暂停或停用网站
  • Google排名和搜索结果呈现
    • Google搜索结果呈现 主题概览
    • AI概览和您的网站
    • Google搜索的视觉元素库
    • Google搜索结果中的标题链接(Title)
    • Google搜索结果中的摘要(如何撰写元描述)
    • 图片搜索引擎优化 (SEO) 最佳实践
    • 视频搜索引擎优化 (SEO) 最佳实践
    • 影响您在Google搜索中的署名日期
    • 定义要在搜索结果中显示的网站图标(Favicon)
    • 经过翻译的功能-1 Google搜索中的翻译搜索结果
    • 经过翻译的功能-2 让广告网络能够使用与翻译相关的Google搜索功能
    • 精选摘要和您的网站
    • 使内容出现在Google探索中
    • Google搜索结果中的网站名称
    • 搜索结果中的站点链接
    • 在Google上启用网络故事、创建网络故事的最佳做法及内容政策
    • 实施灵活抽样时需遵循的常规指南
    • 本地功能-1 向Google添加商家详情
    • 本地功能-2 热门地点列表优化
    • 本地功能-3 退出Google Local
    • Google搜索和您网站上的备注(实验性功能)
    • “包裹跟踪”功能尝鲜者计划
    • 排名系统
      • Google搜索排名系统指南
      • Google搜索实用内容系统
      • Google搜索的评价系统
    • 页面体验
      • 了解Google搜索结果中的网页体验
      • 了解核心网页指标和Google搜索结果
      • 避免使用干扰性插页式广告和对话框
      • 在Google搜索中使用 Signed Exchange
    • 结构化数据
      • Google搜索中的结构化数据标记简介及其运作方式
      • 结构化数据常规指南
      • 丰富且互动的搜索结果
      • 使用 JavaScript 生成结构化数据
      • Google搜索支持的结构化数据标记(结构化数据列表)
      • 文章(Article、NewsArticle、BlogPosting)结构化数据
      • 图书操作 (Book) 结构化数据
      • 面包屑导航 (BreadcrumbList) 结构化数据(路径)
      • 轮播界面 (ItemList) 结构化数据
      • 课程信息(Course 和 CourseInstance)结构化数据
      • 课程列表 (Course) 结构化数据
      • 数据集(Dataset、DataCatalog、DataDownload)结构化数据
      • 论坛 (DiscussionForumPosting) 结构化数据
      • 知识问答(Quiz、Question 和 Answer)结构化数据
      • 雇主总体评分 (EmployerAggregateRating) 结构化数据
      • 估算工资 (Occupation) 结构化数据
      • 活动 (Event) 结构化数据
      • 事实核查 (ClaimReview) 结构化数据
      • 常见问题解答FAQ(FAQPage、Question、Answer)结构化数据
      • 居家活动 (VirtualLocation) 结构化数据
      • Google 图片中的图片元数据
      • 职位搜索的招聘信息 (JobPosting) 结构化数据
      • 学习视频(LearningResource、VideoObject、Clip)结构化数据
      • 本地商家 (LocalBusiness) 结构化数据
      • 数学求解器 (MathSolver) 结构化数据
      • 影片轮播界面 (Movie) 结构化数据
      • 单位组织 (Organization) 结构化数据
      • 练习题 (Quiz) 结构化数据
      • 产品/商品(Product、Review、Offer)结构化数据简介-0
      • 产品/商品(Product、Review、Offer)结构化数据-1商品摘要
      • 产品/商品(Product、Offer)结构化数据-2商家信息
      • 产品/商品结构化数据(ProductGroup、Product)-3变体(商品款式/规格)
      • 个人资料页面 (ProfilePage) 结构化数据
      • 问答 (QAPage) 结构化数据
      • 食谱(Recipe、HowTo、ItemList)结构化数据
      • 评价摘要(Review、AggregateRating)结构化数据
      • 站点链接 (WebSite) 结构化数据
      • 软件应用 (SoftwareApplication) 结构化数据
      • 订阅和付费内容结构化数据 (CreativeWork)
      • 民宿 (VacationRental) 结构化数据
      • 车辆详情 (Car) 结构化数据
      • 视频(VideoObject、Clip、BroadcastEvent)结构化数据
      • 可朗读(Article、WebPage)结构化数据(Beta 版)
      • COVID-19 通知 (SpecialAnnouncement) 结构化数据(Beta 版)
  • 监控和调试
    • 调试 Google 搜索流量下降问题
    • 通过Search Console进行监控
      • Search Console使用入门
      • 利用Search Console气泡图改进搜索引擎优化 (SEO) 效果
    • 使用搜索运算符进行调试
      • Google 搜索运算符概览
      • site: 搜索运算符
      • cache: 搜索运算符
      • Google图片src: 搜索运算符
    • 预防和监控滥用行为
      • 预防和监控网站上的滥用行为概览
      • 防止网站和平台存在用户生成的垃圾内容
      • 恶意软件和垃圾软件
      • 防止感染恶意软件
      • 社会工程学(钓鱼式攻击和欺骗性网站)
      • Google安全浏览屡次违规网站政策
  • 针对特定网站的指南
    • 电子商务网站
      • 在Google搜索中推广电子商务网站的最佳做法 概览
      • 电子商务内容可以展示在Google上的什么位置
      • 与 Google 分享商品数据
      • 添加电子商务网站的结构化数据
      • 如何在Google上发布新的电子商务网站
      • 撰写优质评价
      • 设计电子商务网站的网址结构
      • 电子商务网站导航结构
      • 分页和增量加载以及它们对 Google 搜索的影响
    • 国际网站和多语言网站
      • 国际性和多语言网站主题概览
      • 管理多区域网站和多语言网站
      • 将网页的本地化版本告知Google
      • Google如何抓取语言区域自适应网页

Google搜索引擎优化 (SEO) 指南(旧版)

  • 谷歌搜索引擎优化(SEO)简介
  • Google搜索基础知识
    • 1.快速入门:了解 Google 搜索的基础知识
    • 2.在 Google 上占有一席之地
    • 3.搜索的工作方式(面向新手)
    • 4.针对搜索引擎优化您的网站
    • 5.衡量您的网站在 Google 上的效果
  • Google新手SEO
    • 1.Google搜索新手入门指南
    • 2.Google 搜索的工作方式
    • 3.Google搜索引擎优化 (SEO) 新手指南
    • 4.您需要 SEO 吗?
    • 5.在 Google 上建立商家详情
    • 6.谷歌站长工具Search Console 新手指南
  • Google高级SEO
    • 1.Google高级SEO使用入门
    • 2.进阶内容:Google 搜索的运作方式
    • 3.Google 搜索使用入门:开发者指南
    • 4.谷歌站长工具Search Console 高级指南
    • 5.Google优化指南
      • 5.1Google优化指南概览(目录)
      • 5.2Google网站站长指南
      • 5.3Google常规指南
        • 5.3-1保持简单的网址结构
        • 5.3-2向 Google 说明您的出站链接的用意
        • 5.3-3将网站标记为面向儿童的内容
        • 5.3-4浏览器兼容性
        • 5.3-5避免创建重复内容
        • 5.3-6确保链接可供抓取
        • 5.3-7确保 Googlebot 未被阻止
        • 5.3-8借助 Google 搜索进行网站测试的最佳做法
      • 5.4针对特定内容的指南
        • 5.4-1Google图片最佳做法
        • 5.4-2Google视频最佳做法
        • 5.4-3Google有关富媒体文件的最佳做法
        • 5.4-4与 Google 搜索中的 AMP 网页相关的准则
        • 5.4-5AJAX增强型网站
        • 5.4-6关于 AJAX 的常见问题解答
        • 5.4-7Google 搜索提供的 COVID-19 资源和提示
      • 5.5网站页面质量指南
        • 5.5-1自动生成的内容
        • 5.5-2欺骗性重定向
        • 5.5-3链接方案
        • 5.5-4付费链接
        • 5.5-5伪装真实内容
        • 5.5-6隐藏文字和链接
        • 5.5-7门页
        • 5.5-8抄袭内容
        • 5.5-9联属计划
        • 5.5-10不相关的关键字(关键字堆砌)
        • 5.5-11创建会执行恶意行为的网页
        • 5.5-12用户生成的垃圾内容
        • 5.5-13阻止垃圾评论的方法
        • 5.5-14举报网络垃圾、付费链接或恶意软件
    • 6.控制抓取和索引编制
      • 6.01抓取和索引编制主题概览(目录)
      • 6.02编入索引简介
      • 6.03创建网址列表
      • 6.04向 Google 提交网址
      • 6.07从 Google 中移除信息
      • 6.08暂停在线商家
      • 6.09整合重复网址
      • 6.10创建自定义 404 网页
      • 6.11转移、移动或迁移网站
      • 6.13Google 可以识别的特殊标记
      • 6.14漫游器元标记、data-nosnippet 和 X-Robots-Tag 规范
      • 6.15管理抓取速度:请求 Google 重新抓取您的网址和减慢 Googlebot 的抓取速度
      • 6.05管理站点地图
        • 6.5-1了解站点地图
        • 6.5-2创建和提交站点地图
        • 6.5-3拆分较大的站点地图
        • 6.5-4视频Sitemap及其替代方案
        • 6.5-5图片站点地图
        • 6.5-6创建 Google 新闻站点地图
      • 6.06阻止访问您的内容
        • 6.6-1阻止访问您的内容
        • 6.6-2控制与 Google 分享的内容
        • 6.6-3使用”noindex”阻止搜索引擎编入索引
        • 6.6-4.1通过 robots.txt 阻止访问-robots.txt 简介
        • 6.6-4.2创建 robots.txt 文件
        • 6.6-4.3向 Google 提交更新后的 robots.txt
        • 6.6-4.4有关漫游器robots.txt的常见问题解答
        • 6.6-4.5Robots.txt 规范
        • 6.6-5阻止您页面上的图片出现在搜索结果中
      • 6.12管理多区域和多语言网站
        • 6.12-1管理多区域和多语言网站
        • 6.12-2将网页的本地化版本告知 Google
        • 6.12-3Google 如何抓取语言区域自适应网页
        • 6.12-4跨语言搜索结果
      • 6.16Google 抓取工具
        • 6.16-1Google 抓取工具(用户代理)概览
        • 6.16-2谷歌机器人Googlebot
        • 6.16-3Google Read Aloud 用户代理
        • 6.16-4APIs-Google 用户代理
        • 6.16-5Feedfetcher
        • 6.16-6网页上的 Duplex”用户代理
        • 6.16-7验证 Googlebot
      • 6.17管理JavaScript内容
        • 6.17-1了解 JavaScript SEO 基础知识
        • 6.17-2解决与 Google 搜索相关的 JavaScript 问题
        • 6.17-3修正延迟加载的内容
        • 6.17-4实现动态呈现
    • 7.更改搜索结果呈现
      • 7.1搜索结果呈现主题概览
      • 7.2控制搜索结果中的标题链接
      • 7.4为网站启用搜索结果功能
      • 7.3控制搜索结果中的摘要
      • 7.5精选摘要和您的网站
      • 7.6站点链接
      • 7.7向 Google 搜索提供发布日期
      • 7.8定义要在搜索结果中显示的网站图标
View Categories
  • 首页
  • 谷歌SEO优化官方文档
  • 谷歌SEO优化指南(新版)
  • Google抓取和编入索引
  • Robots.txt

Google如何解读robots.txt规范

Google 的自动抓取工具支持 REP(robots 协议)。这意味着,在抓取某一网站之前,Google 抓取工具会下载并解析该网站的 robots.txt 文件,以提取关于网站中哪些部分可以被抓取的信息。REP 不适用于由用户控制的 Google 抓取工具(例如 Feed 订阅),也不适用于用来提高用户安全性的抓取工具(例如恶意软件分析)。

本页介绍了 Google 对 REP 的解读。有关原始标准的信息,请查看 RFC 9309。

什么是 robots.txt 文件 #

如果您不希望抓取工具访问您网站中的部分内容,可以创建包含相应规则的 robots.txt 文件。robots.txt 文件是一个简单的文本文件,其中包含关于哪些抓取工具可以访问网站的哪些部分的规则。例如,example.com 的 robots.txt 文件可能如下所示:

# This robots.txt file controls crawling of URLs under https://example.com.
# All crawlers are disallowed to crawl files in the "includes" directory, such
# as .css, .js, but Google needs them for rendering, so Googlebot is allowed
# to crawl them.
User-agent: *
Disallow: /includes/

User-agent: Googlebot
Allow: /includes/

Sitemap: https://example.com/sitemap.xml

如果您是首次接触 robots.txt,请先阅读我们的 robots.txt 简介。您还可以找到关于创建 robots.txt 文件的提示。

文件位置和有效范围 #

您必须将 robots.txt 文件放在网站的顶级目录中,并为其使用支持的协议。和其他网址一样,robots.txt 文件的网址也区分大小写。就 Google 搜索而言,支持的协议包括 HTTP、HTTPS 和 FTP。使用 HTTP 和 HTTPS 协议时,抓取工具会使用 HTTP 无条件 GET 请求来提取 robots.txt 文件;使用 FTP 时,抓取工具会使用标准 RETR (RETRIEVE) 命令,并采用匿名登录方式。

robots.txt 文件中列出的规则只适用于该文件所在的主机、协议和端口号。

有效 robots.txt 网址的示例 #

下表列出了 robots.txt 网址及其适用的网址路径的示例。 第一列包含 robots.txt 文件的网址,第二列包含 robots.txt 文件将适用及不适用的网域。

robots.txt 网址示例
https://example.com/robots.txt 这属于一般情况。该网址对其他子网域、协议或端口号来说无效。对同一个主机、协议和端口号上的所有子目录中的所有文件有效。

适用于:

  • https://example.com/
  • https://example.com/folder/file

不适用于:

  • https://other.example.com/
  • http://example.com/
  • https://example.com:8181/
https://www.example.com/robots.txt 子网域上的 robots.txt 仅对该子网域有效。

适用于: https://www.example.com/

不适用于:

  • https://example.com/
  • https://shop.www.example.com/
  • https://www.shop.example.com/
https://example.com/folder/robots.txt 不是有效的 robots.txt 文件。抓取工具不会检查子目录中的 robots.txt 文件。
https://www.exämple.com/robots.txt IDN 等同于其对应的 punycode 版本。另请参阅 RFC 3492。

适用于:

  • https://www.exämple.com/
  • https://xn--exmple-cua.com/

不适用于: https://www.example.com/

ftp://example.com/robots.txt 适用于: ftp://example.com/

不适用于: https://example.com/

https://212.96.82.21/robots.txt 以 IP 地址作为主机名的 robots.txt 只在抓取作为主机名的该 IP 地址时有效。该 robots.txt 文件并不会自动对该 IP 地址上托管的所有网站有效,但该文件可能是共享的,在此情况下,它也可以在共享主机名下使用。

适用于: https://212.96.82.21/

不适用于: https://example.com/(即使托管在 212.96.82.21 上)

https://example.com:443/robots.txt 标准端口号(HTTP 为 80,HTTPS 为 443,FTP 为 21)等同于其默认的主机名。

适用于:

  • https://example.com:443/
  • https://example.com/

不适用于: https://example.com:444/

https://example.com:8181/robots.txt 非标准端口号上的 robots.txt 文件只对通过这些端口号提供的内容有效。

适用于: https://example.com:8181/

不适用于: https://example.com/

错误处理和 HTTP 状态代码 #

在请求 robots.txt 文件时,服务器响应的 HTTP 状态代码会影响 Google 抓取工具使用 robots.txt 文件的方式。下表总结了 Googlebot 针对各种 HTTP 状态代码处理 robots.txt 文件的方式。

错误处理和 HTTP 状态代码
2xx (success) 表示成功的 HTTP 状态代码会提示 Google 抓取工具处理服务器提供的 robots.txt 文件。
3xx (redirection) Google 会按照 RFC 1945 的规定跟踪至少五次重定向,然后便会停止,并将其作为 robots.txt 的 404 错误来处理。这也适用于重定向链中任何被禁止访问的网址,因为抓取工具会由于重定向而无法提取规则。

Google 不会跟踪 robots.txt 文件中的逻辑重定向(框架、JavaScript 或元刷新型重定向)。

4xx (client errors) Google 抓取工具会将所有 4xx 错误(429 除外)解读为网站不存在有效的 robots.txt 文件,这意味着 Google 会假定没有任何抓取限制。

请勿使用 401 和 403 状态代码限制抓取速度。4xx 状态代码(429 除外)对抓取速度没有影响。 了解如何限制抓取速度。
5xx (server errors) 由于服务器无法对 Google 的 robots.txt 请求提供明确响应,因此 Google 会暂时将服务器错误 5xx 和 429 解读为网站完全禁止访问。Google 会尝试抓取 robots.txt 文件,直到获得非服务器错误的 HTTP 状态代码。503 (service unavailable) 错误会导致非常频繁的重试操作。如果连续 30 天以上无法访问 robots.txt,Google 会使用该 robots.txt 的最后一个缓存副本。如果没有缓存副本,Google 会假定没有任何抓取限制。

如果您需要暂停抓取,建议为网站上的每个网址提供 503 HTTP 状态代码。

如果我们能够确定,某网站因为配置不正确而在缺少网页时返回 5xx 而不是 404 状态代码,就会将该网站的 5xx 错误作为 404 错误处理。例如,如果返回 5xx 状态代码的网页上的错误消息为“找不到网页”,我们会将该状态代码解释为 404 (not found)。

其他错误 对于因 DNS 或网络问题(例如超时、响应无效、重置或断开连接、HTTP 组块错误等)而无法抓取的 robots.txt 文件,系统在处理时会将其视为服务器错误。

缓存 #

Google 通常会将 robots.txt 文件的内容最多缓存 24 小时,但在无法刷新缓存版本的情况下(例如出现超时或 5xx 错误时),缓存时间可能会延长。已缓存的响应可由各种不同的抓取工具共享。 Google 会根据 max-age Cache-Control HTTP 标头来延长或缩短缓存生命周期。

文件格式 #

robots.txt 文件必须是采用UTF-8编码的纯文本文件,且各行代码必须以 CR、CR/LF 或 LF 分隔。

Google 会忽略 robots.txt 文件中的无效行,包括 robots.txt 文件开头处的 Unicode 字节顺序标记 (BOM),并且只使用有效行。例如,如果下载的内容是 HTML 格式而非 robots.txt 规则,Google 会尝试解析内容并提取规则,而忽略其他所有内容。

同样,如果 robots.txt 文件的字符编码不是UTF-8,Google 可能会忽略不属于UTF-8范围的字符,从而可能会导致 robots.txt 规则无效。

Google 目前强制执行的 robots.txt 文件大小限制是 500 KiB,并忽略超过该上限的内容。您可以通过整合会导致 robots.txt 文件过大的规则来减小 robots.txt 文件的大小。例如,将已排除的内容放在一个单独的目录中。

语法 #

有效的 robots.txt 行由一个字段、一个冒号和一个值组成。可以选择是否使用空格,但建议使用空格,有助于提高可读性。系统会忽略行开头和结尾的空格。若要添加注释,请在注释前面加上#字符。请注意,#字符后面的所有内容都会被忽略。常见格式为 <field>:<value><#optional-comment>。

Google 支持以下字段:

  • user-agent:标识相应规则适用于哪些抓取工具。
  • allow:可抓取的网址路径。
  • disallow:不可抓取的网址路径。
  • sitemap:站点地图的完整网址。

allow 和 disallow 字段也称为规则(即指令)。这些规则始终以 rule: [path] 的形式指定,其中 [path] 可以选择性使用。默认情况下,指定的抓取工具没有抓取限制。抓取工具会忽略不带 [path] 的规则。

如果指定了 [path] 值,该路径值就是 robots.txt 文件所在网站的根目录的相对路径(使用相同的协议、端口号、主机和域名)。路径值必须以 / 开头来表示根目录,该值区分大小写。详细了解基于路径值的网址匹配。

user-agent #

user-agent 行用来标识相应规则适用于哪些抓取工具。请参阅 Google 抓取工具和用户代理字符串,获取可在 robots.txt 文件中使用的用户代理字符串的完整列表。

user-agent 行的值不区分大小写。

disallow #

disallow 规则用来指定不能被 disallow 规则所属的 user-agent 行所标识的抓取工具访问的路径。 抓取工具会忽略不含路径的规则。

Google无法将禁止抓取的网页的内容编入索引,但可能仍会将其网址编入索引并将其显示在搜索结果中,但不显示摘要。了解如何阻止编入索引。

disallow 字段的值区分大小写。

用法:

disallow: [path]

allow #

allow 规则用来指定相应抓取工具可以访问的路径。如果未指定路径,该规则将被忽略。

allow 字段的值区分大小写。

用法:

allow: [path]

sitemap #

根据 sitemaps.org 规定,Google、Bing 和其他主流搜索引擎支持 robots.txt 中的 sitemap 字段。

sitemap 字段的值区分大小写。

用法:

sitemap: [absoluteURL]

[absoluteURL] 行指向站点地图或站点地图索引文件的位置。 此网址必须是完全限定网址,包含协议和主机,且无需进行网址编码。此网址不需要与 robots.txt 文件位于同一主机上。您可以指定多个 sitemap 字段。sitemap 字段不依赖于任何特定的用户代理,只要未被禁止抓取,所有抓取工具都可以追踪它们。

例如:

user-agent: otherbot
disallow: /kale

sitemap: https://example.com/sitemap.xml
sitemap: https://cdn.example.org/other-sitemap.xml
sitemap: https://ja.example.org/テスト-サイトマップ.xml

行和规则分组 #

通过对每个抓取工具重复 user-agent 行,可将适用于多个用户代理的规则组合在一起。

例如:

user-agent: a
disallow: /c

user-agent: b
disallow: /d

user-agent: e
user-agent: f
disallow: /g

user-agent: h

此示例中有四个不同的规则组:

  • 用户代理“a”为一组
  • 用户代理“b”为一组
  • 用户代理“e”和“f”为一组
  • 用户代理“h”为一组

有关组的技术说明,请参阅 REP 的第 2.1 节。

用户代理的优先顺序 #

对于某个抓取工具而言,只有一个组是有效的。Google 抓取工具会在 robots.txt 文件中查找包含与抓取工具的用户代理相匹配的最具体用户代理的组,从而确定正确的规则组。其他组会被忽略。所有非匹配文本都会被忽略(例如,googlebot/1.2 和 googlebot* 均等同于 googlebot)。这与 robots.txt 文件中的组顺序无关。

如果为用户代理声明多个特定组,则这些组中适用于该特定用户代理的所有规则会在内部合并成一个组。特定于用户代理的组和全局组 (*) 不会合并。

示例 #

user-agent字段的匹配情况 #

user-agent: googlebot-news
(group 1)

user-agent: *
(group 2)

user-agent: googlebot
(group 3)

以下为抓取工具选择相关组的方法:

每个抓取工具追踪的组
Googlebot News googlebot-news 遵循组 1,因为组 1 是最具体的组。
Googlebot(网络) googlebot 遵循组 3。
Googlebot Storebot Storebot-Google 遵循组 2,因为没有具体的 Storebot-Google 组。
Googlebot News(抓取图片时) 抓取图片时,googlebot-news 遵循组 1。 googlebot-news 不会为 Google 图片抓取图片,因此它只遵循组 1。
Otherbot(网络) 其他 Google 抓取工具遵循组 2。
Otherbot(新闻) 抓取新闻内容但未标识为 googlebot-news 的其他 Google 抓取工具遵循组 2。即使有相关抓取工具的对应条目,也只有在明确匹配时才会有效。

规则分组 #

如果 robots.txt 文件中有多个组与特定用户代理相关,则 Google 抓取工具会在内部合并这些组。例如:

user-agent: googlebot-news
disallow: /fish

user-agent: *
disallow: /carrots

user-agent: googlebot-news
disallow: /shrimp

抓取工具会根据用户代理在内部对规则进行分组,例如:

user-agent: googlebot-news
disallow: /fish
disallow: /shrimp

user-agent: *
disallow: /carrots

allow、disallow 和 user-agent 以外的其他规则会被 robots.txt 解析器忽略。这意味着以下 robots.txt 代码段被视为一个组,因此 user-agent a 和 b 均受 disallow: / 规则的影响:

user-agent: a
sitemap: https://example.com/sitemap.xml

user-agent: b
disallow: /

当抓取工具处理 robots.txt 规则时,会忽略sitemap行。 例如,下面说明了抓取工具如何理解之前的 robots.txt 代码段:

user-agent: a
user-agent: b
disallow: /

基于路径值的网址匹配 #

Google 会以 allow 和 disallow 规则中的路径值为基础,确定某项规则是否适用于网站上的特定网址。为此,系统会将相应规则与抓取工具尝试抓取的网址的路径部分进行比较。路径中的非 7 位 ASCII 字符可以按照 RFC 3986 作为 UTF-8 字符或百分号转义的 UTF-8 编码字符纳入。

对于路径值,Google、Bing 和其他主流搜索引擎支持有限形式的通配符。这些通配符包括:

  • * 表示出现 0 次或多次的任何有效字符。
  • $ 表示网址结束。

下表显示了不同的通配符对解析的影响:

路径匹配示例
/ 匹配根目录以及任何下级网址。
/* 等同于 /。结尾的通配符会被忽略。
/$ 仅匹配根目录。任何更低级别的网址均可抓取。
/fish 匹配以 /fish 开头的任何路径。请注意,匹配时区分大小写。

匹配项:

  • /fish
  • /fish.html
  • /fish/salmon.html
  • /fishheads
  • /fishheads/yummy.html
  • /fish.php?id=anything

不匹配项:

  • /Fish.asp
  • /catfish
  • /?id=fish
  • /desert/fish
/fish* 等同于 /fish。结尾的通配符会被忽略。

匹配项:

  • /fish
  • /fish.html
  • /fish/salmon.html
  • /fishheads
  • /fishheads/yummy.html
  • /fish.php?id=anything

不匹配项:

  • /Fish.asp
  • /catfish
  • /?id=fish
  • /desert/fish
/fish/ 匹配 /fish/ 文件夹中的任何内容。

匹配项:

  • /fish/
  • /fish/?id=anything
  • /fish/salmon.htm

不匹配项:

  • /fish
  • /fish.html
  • /animals/fish/
  • /Fish/Salmon.asp
/*.php 匹配包含 .php 的任何路径。

匹配项:

  • /index.php
  • /filename.php
  • /folder/filename.php
  • /folder/filename.php?parameters
  • /folder/any.php.file.html
  • /filename.php/

不匹配项:

  • /(即使其映射到 /index.php)
  • /windows.PHP
/*.php$ 匹配以 .php 结尾的任何路径。

匹配项:

  • /filename.php
  • /folder/filename.php

不匹配项:

  • /filename.php?parameters
  • /filename.php/
  • /filename.php5
  • /windows.PHP
/fish*.php 匹配包含 /fish 和 .php(按此顺序)的任何路径。

匹配项:

  • /fish.php
  • /fishheads/catfish.php?parameters

不匹配项: /Fish.PHP

规则的优先顺序 #

匹配 robots.txt 规则与网址时,抓取工具会根据规则路径的长度使用最具体的规则。如果规则(包括使用通配符的规则)存在冲突,Google 将使用限制性最弱的规则。

以下示例演示了 Google 抓取工具会对特定网址应用什么规则。

示例情况
https://example.com/page
allow: /p
disallow: /

适用规则:allow: /p,因为它更具体。

https://example.com/folder/page
allow: /folder
disallow: /folder

适用规则:allow: /folder,因为规则存在冲突时,Google 会使用限制性最弱的规则。

https://example.com/page.htm
allow: /page
disallow: /*.htm

适用规则:disallow: /*.htm,因为该规则路径更长,并且它与网址中的字符匹配得更多,因此更具体。

https://example.com/page.php5
allow: /page
disallow: /*.ph

适用规则:allow: /page,因为规则存在冲突时,Google 会使用限制性最弱的规则。

https://example.com/
allow: /$
disallow: /

适用规则:allow: /$,因为它更具体。

https://example.com/page.htm
allow: /$
disallow: /

适用规则:disallow: /,因为 allow 规则仅适用于根网址。

分享这篇文章 :
  • Facebook
  • X
  • LinkedIn
  • Pinterest
更新 2024年1月17日

暂无评论

再想想
暂无评论...
文档目录
  • 什么是 robots.txt 文件
  • 文件位置和有效范围
  • 有效 robots.txt 网址的示例
  • 错误处理和 HTTP 状态代码
  • 缓存
  • 文件格式
  • 语法
    • user-agent
    • disallow
    • allow
    • sitemap
  • 行和规则分组
  • 用户代理的优先顺序
    • 示例
      • user-agent字段的匹配情况
      • 规则分组
  • 基于路径值的网址匹配
  • 规则的优先顺序
SEO算法教程

Copyright © 2021 SEO工具导航 粤ICP备15089945号-7 粤公网安备 44098102441079号

  
常用
搜索
工具
社区
生活
    热门推荐: