有关漫游器的一般问题 #
我的网站需要 robots.txt 文件吗? #
不需要。Googlebot 访问网站时,我们会先通过尝试检索 robots.txt 文件来请求抓取权限。对于不包含 robots.txt 文件、漫游器元标记或 X-Robots-Tag HTTP 标头的网站,我们一般会照常抓取并编入索引。
我应使用哪种方法? #
这要视具体情况而定。简而言之,这三种方法分别适用于不同的情况:
1.robots.txt:如果抓取您的内容会在您的服务器上引发问题,请使用该方法。例如,您可能要禁止抓取无限加载内容的日历脚本。您不应使用 robots.txt 屏蔽不公开内容(而应使用服务器端身份验证机制)或处理规范化。如果您必须确保某个网址不被编入索引,请使用漫游器元标记或 X-Robots-Tag HTTP 标头。
2.漫游器元标记:如果您需要控制单个 HTML 网页在搜索结果中的显示效果,或者需要确保该网页不显示,请使用该方法。
3.X-Robots-Tag HTTP 标头:如果您需要控制非 HTML 内容在搜索结果中的显示效果,或者需要确保这些内容不显示,请使用该方法。
我可以使用这些方法移除其他人的网站吗? #
不可以。这些方法仅适用于您可在其中修改代码或添加文件的网站。如果您想从某个第三方网站中移除内容,则需要与相应的网站所有者联系,让其移除这些内容。
如何降低 Google 对我网站的抓取速度? #
一般来讲,您可以在 Google Search Console 帐号中调整抓取速度设置。
有关 robots.txt 的问题 #
我在多个网站中使用同一个 robots.txt。我可以使用完整网址而不是相对路径吗? #
不可以。robots.txt 文件中的指令(“Sitemap:”除外)仅对相对路径有效。
我可以将 robots.txt 文件放在子目录下吗? #
不可以。该文件必须位于网站的顶层目录下。
我想屏蔽某个不公开文件夹。我可以禁止其他人读取我的 robots.txt 文件吗? #
不可以。robots.txt 文件可由各种用户读取。如果某些内容的文件夹或文件名是非公开内容,它们便不应被列在 robots.txt 文件中。我们建议您不要根据用户代理或其他属性提供不同的 robots.txt 文件。
我需要添加 allow 指令以允许抓取吗? #
您不需要添加 allow 指令。allow 指令仅用于替换同一 robots.txt 文件中的 disallow
指令。
如果我的 robots.txt 文件存在错误,或者我使用了不受支持的指令,会发生什么情况? #
网页抓取工具一般具有很高的灵活性,通常不会因 robots.txt 文件中的小错误而受到影响。一般情况下,最严重的后果就是忽略不正确或不受支持的指令。请注意,尽管 Google 在读取 robots.txt 文件时无法了解您的意图,但我们必须解析所获取的 robots.txt 文件。也就是说,如果您意识到自己的 robots.txt 文件存在问题,那么这些问题通常很容易解决。
我应使用什么程序创建 robots.txt 文件? #
您可以使用任何可创建有效文本文件的程序。常用来创建 robots.txt 文件的程序包括记事本、TextEdit、vi 或 emacs。详细了解如何创建 robots.txt 文件。创建文件后,请使用 robots.txt 测试工具对其进行验证。
如果我使用 robots.txt disallow 指令禁止 Google 抓取某个网页,该网页会从搜索结果中消失吗? #
禁止 Google 抓取某个网页很可能会导致该网页从 Google 索引中移除。
但是,robots.txt Disallow 无法保证某一网页不会显示在搜索结果中:Google 仍可能会根据外部信息(如传入的链接)断定其具有相关性。如果您希望明确禁止某个网页被编入索引,则应改为使用 noindex 漫游器元标记或 X-Robots-Tag HTTP 标头。在这种情况下,您不应在 robots.txt 中屏蔽该网页,因为 Google 只有在抓取该网页时才能看到和遵循相关标记。
我对 robots.txt 文件的更改要过多久才会体现在我的搜索结果中? #
首先,robots.txt 文件的缓存必须进行更新(我们一般最多将内容缓存一天)。即使在系统发现了文件的更改后,抓取与索引编入的过程也很复杂,有时对于个别网址的处理可能需要很久,因此无法给出准确的时间。另请注意,即使您的 robots.txt 文件禁止访问某个网址,该网址仍有可能显示在搜索结果中,只是我们无法抓取它。如果您想加速移除禁止 Google 访问的网页,请通过 Google Search Console 提交移除请求。
如何暂时停止所有对我网站的抓取? #
您可以对所有网址(包括 robots.txt 文件)返回 HTTP 结果代码 503,从而暂时停止所有对您网站的抓取。系统会定期重新请求 robots.txt 文件,直到能够再次访问该文件。我们建议您不要通过改动 robots.txt 文件来禁止抓取。
我的服务器不区分大小写。如何才能完全禁止对某些文件夹的抓取? #
robots.txt 文件中的指令是区分大小写的。在这种情况下,建议您确保使用规范化方法编入索引的网址版本只有一个。这样可以简化您的 robots.txt 文件。如果无法使用上述方法,那么我们建议您列出文件夹名称的常见组合,或者使用名称的前几个字符代替全称,尽量将其缩短。例如,您无需列出“/MyPrivateFolder”的所有大小写组合,只要列出“/MyP”的组合即可(前提是您确定不存在其他包含这些首字符的可抓取网址)。此外,如果不存在抓取问题,则可改用漫游器元标记或 X-Robots-Tag HTTP 标头。
我对所有网址(包括 robots.txt 文件)都返回了 403“禁止访问”。为什么网站仍会被抓取? #
HTTP 结果代码 403 与其他 4xx HTTP 结果代码一样,代表 robots.txt 文件不存在。因此,抓取工具一般会假定可以抓取该网站的所有网址。要禁止对网站进行抓取,必须正常地返回 robots.txt 文件(以 200“成功”HTTP 结果代码表示),其中应包含相应的“disallow”指令。
有关漫游器元标记的问题 #
漫游器元标记可以替代 robots.txt 文件吗? #
不可以。robots.txt 文件控制访问的是哪些网页。漫游器元标记控制是否将网页编入索引,但是需要抓取相应的网页才能查看该标记。如果抓取某个网页时存在问题(例如该网页导致服务器高负载),则应使用 robots.txt 文件。如果您只是想控制某个网页是否显示在搜索结果中,则可使用漫游器元标记。
可以使用漫游器元标记禁止将某网页中的部分内容编入索引吗? #
不可以,漫游器元标记是网页一级的设置。
可以在 <head> 部分之外使用漫游器元标记吗? #
不可以。漫游器元标记目前必须位于网页的 <head> 部分。
漫游器元标记会禁止抓取操作吗? #
不会。即使漫游器元标记目前显示 noindex,我们仍然需要不定期重新抓取该网址,以查看漫游器元标记是否发生了更改。
nofollow 漫游器元标记与 rel=”nofollow” 链接属性相比如何? #
nofollow 漫游器元标记适用于网页中的所有链接。rel=”nofollow” 链接属性仅适用于网页中的特定链接。有关 rel=”nofollow” 链接属性的详情,请参阅我们的帮助中心内有关用户生成的垃圾内容以及 rel=”nofollow” 的文章。
有关 X-Robots-Tag HTTP 标头的问题 #
如何查看网址的 X-Robots-Tag? #
若要查看服务器标头,一种非常简单的方法是使用基于网络的服务器标头检查器或使用 Google Search Console 中的 Googlebot 模拟抓取功能。