6.6-4.4有关漫游器robots.txt的常见问题解答-谷歌搜索引擎优化指南

有关漫游器的一般问题 #

我的网站需要 robots.txt 文件吗？ #

不需要。Googlebot 访问网站时，我们会先通过尝试检索 robots.txt 文件来请求抓取权限。对于不包含 robots.txt 文件、漫游器元标记或 X-Robots-Tag HTTP 标头的网站，我们一般会照常抓取并编入索引。

我应使用哪种方法？ #

这要视具体情况而定。简而言之，这三种方法分别适用于不同的情况：

1.robots.txt：如果抓取您的内容会在您的服务器上引发问题，请使用该方法。例如，您可能要禁止抓取无限加载内容的日历脚本。您不应使用 robots.txt 屏蔽不公开内容（而应使用服务器端身份验证机制）或处理规范化。如果您必须确保某个网址不被编入索引，请使用漫游器元标记或 X-Robots-Tag HTTP 标头。

2.漫游器元标记：如果您需要控制单个 HTML 网页在搜索结果中的显示效果，或者需要确保该网页不显示，请使用该方法。

3.X-Robots-Tag HTTP 标头：如果您需要控制非 HTML 内容在搜索结果中的显示效果，或者需要确保这些内容不显示，请使用该方法。

我可以使用这些方法移除其他人的网站吗？ #

不可以。这些方法仅适用于您可在其中修改代码或添加文件的网站。如果您想从某个第三方网站中移除内容，则需要与相应的网站所有者联系，让其移除这些内容。

如何降低 Google 对我网站的抓取速度？ #

一般来讲，您可以在 Google Search Console 帐号中调整抓取速度设置。

有关 robots.txt 的问题 #

我在多个网站中使用同一个 robots.txt。我可以使用完整网址而不是相对路径吗？ #

不可以。robots.txt 文件中的指令（“Sitemap:”除外）仅对相对路径有效。

我可以将 robots.txt 文件放在子目录下吗？ #

不可以。该文件必须位于网站的顶层目录下。

我想屏蔽某个不公开文件夹。我可以禁止其他人读取我的 robots.txt 文件吗？ #

不可以。robots.txt 文件可由各种用户读取。如果某些内容的文件夹或文件名是非公开内容，它们便不应被列在 robots.txt 文件中。我们建议您不要根据用户代理或其他属性提供不同的 robots.txt 文件。

我需要添加 allow 指令以允许抓取吗？ #

您不需要添加 allow 指令。allow 指令仅用于替换同一 robots.txt 文件中的 disallow 指令。

如果我的 robots.txt 文件存在错误，或者我使用了不受支持的指令，会发生什么情况？ #

网页抓取工具一般具有很高的灵活性，通常不会因 robots.txt 文件中的小错误而受到影响。一般情况下，最严重的后果就是忽略不正确或不受支持的指令。请注意，尽管 Google 在读取 robots.txt 文件时无法了解您的意图，但我们必须解析所获取的 robots.txt 文件。也就是说，如果您意识到自己的 robots.txt 文件存在问题，那么这些问题通常很容易解决。

我应使用什么程序创建 robots.txt 文件？ #

您可以使用任何可创建有效文本文件的程序。常用来创建 robots.txt 文件的程序包括记事本、TextEdit、vi 或 emacs。详细了解如何创建 robots.txt 文件。创建文件后，请使用 robots.txt 测试工具对其进行验证。

如果我使用 robots.txt disallow 指令禁止 Google 抓取某个网页，该网页会从搜索结果中消失吗？ #

禁止 Google 抓取某个网页很可能会导致该网页从 Google 索引中移除。

但是，robots.txt Disallow 无法保证某一网页不会显示在搜索结果中：Google 仍可能会根据外部信息（如传入的链接）断定其具有相关性。如果您希望明确禁止某个网页被编入索引，则应改为使用 noindex 漫游器元标记或 X-Robots-Tag HTTP 标头。在这种情况下，您不应在 robots.txt 中屏蔽该网页，因为 Google 只有在抓取该网页时才能看到和遵循相关标记。

我对 robots.txt 文件的更改要过多久才会体现在我的搜索结果中？ #

首先，robots.txt 文件的缓存必须进行更新（我们一般最多将内容缓存一天）。即使在系统发现了文件的更改后，抓取与索引编入的过程也很复杂，有时对于个别网址的处理可能需要很久，因此无法给出准确的时间。另请注意，即使您的 robots.txt 文件禁止访问某个网址，该网址仍有可能显示在搜索结果中，只是我们无法抓取它。如果您想加速移除禁止 Google 访问的网页，请通过 Google Search Console 提交移除请求。

如何暂时停止所有对我网站的抓取？ #

您可以对所有网址（包括 robots.txt 文件）返回 HTTP 结果代码 503，从而暂时停止所有对您网站的抓取。系统会定期重新请求 robots.txt 文件，直到能够再次访问该文件。我们建议您不要通过改动 robots.txt 文件来禁止抓取。

我的服务器不区分大小写。如何才能完全禁止对某些文件夹的抓取？ #

robots.txt 文件中的指令是区分大小写的。在这种情况下，建议您确保使用规范化方法编入索引的网址版本只有一个。这样可以简化您的 robots.txt 文件。如果无法使用上述方法，那么我们建议您列出文件夹名称的常见组合，或者使用名称的前几个字符代替全称，尽量将其缩短。例如，您无需列出“/MyPrivateFolder”的所有大小写组合，只要列出“/MyP”的组合即可（前提是您确定不存在其他包含这些首字符的可抓取网址）。此外，如果不存在抓取问题，则可改用漫游器元标记或 X-Robots-Tag HTTP 标头。

我对所有网址（包括 robots.txt 文件）都返回了 403“禁止访问”。为什么网站仍会被抓取？ #

HTTP 结果代码 403 与其他 4xx HTTP 结果代码一样，代表 robots.txt 文件不存在。因此，抓取工具一般会假定可以抓取该网站的所有网址。要禁止对网站进行抓取，必须正常地返回 robots.txt 文件（以 200“成功”HTTP 结果代码表示），其中应包含相应的“disallow”指令。

有关漫游器元标记的问题 #

漫游器元标记可以替代 robots.txt 文件吗? #

不可以。robots.txt 文件控制访问的是哪些网页。漫游器元标记控制是否将网页编入索引，但是需要抓取相应的网页才能查看该标记。如果抓取某个网页时存在问题（例如该网页导致服务器高负载），则应使用 robots.txt 文件。如果您只是想控制某个网页是否显示在搜索结果中，则可使用漫游器元标记。

可以使用漫游器元标记禁止将某网页中的部分内容编入索引吗？ #

不可以，漫游器元标记是网页一级的设置。

可以在 <head> 部分之外使用漫游器元标记吗？ #

不可以。漫游器元标记目前必须位于网页的 <head> 部分。

漫游器元标记会禁止抓取操作吗？ #

不会。即使漫游器元标记目前显示 noindex，我们仍然需要不定期重新抓取该网址，以查看漫游器元标记是否发生了更改。

nofollow 漫游器元标记与 rel=”nofollow” 链接属性相比如何？ #

nofollow 漫游器元标记适用于网页中的所有链接。rel=”nofollow” 链接属性仅适用于网页中的特定链接。有关 rel=”nofollow” 链接属性的详情，请参阅我们的帮助中心内有关用户生成的垃圾内容以及 rel=”nofollow” 的文章。

有关 X-Robots-Tag HTTP 标头的问题 #

如何查看网址的 X-Robots-Tag？ #

若要查看服务器标头，一种非常简单的方法是使用基于网络的服务器标头检查器或使用 Google Search Console 中的 Googlebot 模拟抓取功能。

谷歌SEO优化指南(新版)

Google搜索引擎优化 (SEO) 指南(旧版)

6.6-4.4有关漫游器robots.txt的常见问题解答

有关漫游器的一般问题 #

我的网站需要 robots.txt 文件吗？ #

我应使用哪种方法？ #

我可以使用这些方法移除其他人的网站吗？ #

如何降低 Google 对我网站的抓取速度？ #

有关 robots.txt 的问题 #

我在多个网站中使用同一个 robots.txt。我可以使用完整网址而不是相对路径吗？ #

我可以将 robots.txt 文件放在子目录下吗？ #

我想屏蔽某个不公开文件夹。我可以禁止其他人读取我的 robots.txt 文件吗？ #

我需要添加 allow 指令以允许抓取吗？ #

如果我的 robots.txt 文件存在错误，或者我使用了不受支持的指令，会发生什么情况？ #

我应使用什么程序创建 robots.txt 文件？ #

如果我使用 robots.txt disallow 指令禁止 Google 抓取某个网页，该网页会从搜索结果中消失吗？ #

我对 robots.txt 文件的更改要过多久才会体现在我的搜索结果中？ #

如何暂时停止所有对我网站的抓取？ #

我的服务器不区分大小写。如何才能完全禁止对某些文件夹的抓取？ #

我对所有网址（包括 robots.txt 文件）都返回了 403“禁止访问”。为什么网站仍会被抓取？ #

有关漫游器元标记的问题 #

漫游器元标记可以替代 robots.txt 文件吗? #

可以使用漫游器元标记禁止将某网页中的部分内容编入索引吗？ #

可以在 <head> 部分之外使用漫游器元标记吗？ #

漫游器元标记会禁止抓取操作吗？ #

nofollow 漫游器元标记与 rel=”nofollow” 链接属性相比如何？ #

有关 X-Robots-Tag HTTP 标头的问题 #

如何查看网址的 X-Robots-Tag？ #

暂无评论

有关漫游器的一般问题 #

我的网站需要 robots.txt 文件吗？ #

我应使用哪种方法？ #

我可以使用这些方法移除其他人的网站吗？ #

如何降低 Google 对我网站的抓取速度？ #

有关 robots.txt 的问题 #

我在多个网站中使用同一个 robots.txt。我可以使用完整网址而不是相对路径吗？ #

我可以将 robots.txt 文件放在子目录下吗？ #

我想屏蔽某个不公开文件夹。我可以禁止其他人读取我的 robots.txt 文件吗？ #

我需要添加 allow 指令以允许抓取吗？ #

如果我的 robots.txt 文件存在错误，或者我使用了不受支持的指令，会发生什么情况？ #

我应使用什么程序创建 robots.txt 文件？ #

如果我使用 robots.txt disallow 指令禁止 Google 抓取某个网页，该网页会从搜索结果中消失吗？ #

我对 robots.txt 文件的更改要过多久才会体现在我的搜索结果中？ #

如何暂时停止所有对我网站的抓取？ #

我的服务器不区分大小写。如何才能完全禁止对某些文件夹的抓取？ #

我对所有网址（包括 robots.txt 文件）都返回了 403“禁止访问”。为什么网站仍会被抓取？ #

有关漫游器元标记的问题 #

漫游器元标记可以替代 robots.txt 文件吗? #

可以使用漫游器元标记禁止将某网页中的部分内容编入索引吗？ #

可以在 <head> 部分之外使用漫游器元标记吗？ #

漫游器元标记会禁止抓取操作吗？ #

nofollow 漫游器元标记与 rel=”nofollow” 链接属性相比如何？ #

有关 X-Robots-Tag HTTP 标头的问题 #

如何查看网址的 X-Robots-Tag？ #

分享这篇文章 ：

暂无评论

分享这篇文章：