DuplexWeb-Google 是支持“网页上的 Duplex”服务的用户代理。您可以在此处查看用户代理令牌和完整的用户代理字符串。
抓取频率和行为 #
- 使用 DuplexWeb-Google 的任何服务都不会在抓取您的网站时进行购物或执行任何其他重要操作。
- DuplexWeb-Google 抓取频率从每天几次到每小时几次,具体取决于当时训练的功能,但系统会专门计算此类任务,确保既不会让您的网站负载过重,也不会干扰您的流量。
- Google 搜索不会将 DuplexWeb-Google 抓取用于索引编制。由于此类抓取不会用于索引编制,因此 DuplexWeb-Google 用户代理无法识别 noindex 指令。
- Google Analytics(分析)不会记录 DuplexWeb-Google 在抓取和分析期间发出的网页请求。
使用 robots.txt 规则控制抓取 #
若要禁止 DuplexWeb-Google 抓取您的网站,您必须使用 robots.txt Disallow 规则明确屏蔽 DuplexWeb-Google。仅在 Search Console 资源设置中停用抓取(训练)功能是不够的。
DuplexWeb-Google 通常遵循 robots.txt 规则,但存在以下重要的例外情况:
- 通过 Search Console 启用“网页上的 Duplex”(默认启用)时,DuplexWeb-Google 用户代理不受 Disallow 语句中 * 通配符用户代理字符串的影响。通过 Search Console 停用“网页上的 Duplex”时,DuplexWeb-Google 用户代理会遵从 Disallow 语句中的 * 通配符用户代理字符串。示例:
# Example 1: Block DuplexWeb-Google from crawling your site User-agent: DuplexWeb-Google Disallow: / # Example 2: # * If Duplex on the web is enabled for this property in Search Console, # block all user agents except DuplexWeb-Google. # * If Duplex on the web is disabled for this property in Search Console, # block all user agents including Duplex-WebGoogle. User-agent: * Disallow: /