谷歌搜索引擎优化指南 谷歌搜索引擎优化指南 谷歌搜索引擎优化指南 谷歌搜索引擎优化指南
  • 首页
  • 谷歌SEO工具
    • 关键词工具
    • 内容SEO工具
    • 链接查询分析工具
    • 排名监控工具
    • 网站SEO分析工具
    • 谷歌浏览器SEO插件
  • WordPress主题
  • WordPress插件
  • 谷歌SEO优化官方文档
  • 排行榜
  • 提交工具
谷歌搜索引擎优化指南 谷歌搜索引擎优化指南
  • 首页
  • 谷歌SEO工具
    • 关键词工具
    • 内容SEO工具
      • AI写作工具
    • 链接查询分析工具
    • 排名监控工具
    • 网站SEO分析工具
    • 谷歌浏览器SEO插件
  • WordPress主题
    • WordPress插件
  • 谷歌SEO优化指南
    • Google搜索要素
    • SEO基础知识
    • Google抓取和编入索引
    • Google排名和搜索结果呈现
      • 排名算法系统
      • 结构化数据
      • 页面体验
    • 监控和调试
    • 针对特定网站的指南
  • 谷歌SEO技术
    • 谷歌SEO入门教程
  • SEO工具使用指南

谷歌SEO优化指南(新版)

  • 谷歌搜索引擎优化(SEO)简介
  • Google搜索要素
    • Google 搜索要素概览
    • Google 搜索技术要求
    • 适用于 Google 网页搜索的垃圾内容政策
  • SEO基础知识
    • 使您的网站显示在 Google 搜索结果中
    • 关于 Google 搜索运作方式的深度指南
    • 创建实用、可靠、以用户为中心的内容
    • 谷歌搜索引擎优化 (SEO) 新手指南
    • 您需要 SEO 吗?什么是 SEO 专家?
    • 维持网站的SEO效果(技术型SEO技巧与策略)
    • Google 搜索使用入门:开发者搜索指南
  • Google抓取和编入索引
    • 抓取和索引编制主题概览
    • Google可编入索引的文件类型
    • GoogleSEO网址结构最佳实践(Google网址结构准则)
    • GoogleSEO链接最佳实践(内链、外部链接)
    • 关于移动网站和优先将移动版网站编入索引的最佳实践
    • 站点地图Sitemap
      • 了解站点地图(什么是站点地图Sitemap)
      • 创建和提交站点地图(Sitemap格式规范)
      • 使用站点地图索引文件管理站点地图(拆分较大的站点地图)
      • 图片站点地图格式和规范
      • Google新闻站点地图格式和规范
      • 视频站点地图和替代方案(视频站点地图示例)
      • 如何结合使用站点地图扩展
    • 抓取工具管理
      • 请求 Google 重新抓取您的网站网址
      • 减慢Googlebot的抓取速度
      • 验证Googlebot和其他Google抓取工具
      • 面向大型网站所有者的抓取预算管理指南
      • HTTP 状态代码以及网络连接错误和 DNS 错误对 Google 搜索有何影响
      • Google抓取工具和抓取器(用户代理)概览
      • Googlebot-什么是Googlebot
      • Google Read Aloud 用户代理
      • APIs-Google 用户代理
      • Feedfetcher
    • Robots.txt
      • Robots.txt简介与指南
      • 如何编写和提交robots.txt文件(robots协议规则写法)
      • 更新robots.txt文件
      • Google如何解读robots.txt规范
    • 网址规范化
      • 什么是网址规范化
      • 如何使用rel=”canonical”及其他方法指定规范网址
      • 解决规范化问题
    • AMP
      • 与 Google 搜索中的 AMP 网页相关的准则
      • 了解AMP在搜索结果中的运作原理
      • 增强在Google搜索结果中显示的AMP内容
      • 验证AMP内容是否可以显示在Google搜索结果中
      • 从 Google 搜索结果中移除 AMP 网页
    • JavaScript
      • 了解JavaScriptSEO基础知识
      • 解决与 Google 搜索相关的 JavaScript 问题
      • 修正延迟加载的网站内容
      • 将动态呈现作为临时解决方法
    • 网页和内容元数据
      • Google搜索的有效页面元数据
      • Google支持的meta标记和属性
      • 漫游器元标记规范(Robots meta标记、data-nosnippet和X-Robots-Tag规范)
      • 使用noindex阻止搜索引擎编入索引
      • 安全搜索功能和您的网站
      • 向Google说明您的出站链接的用意(rel属性)
    • 删除
      • 控制您在Google搜索中分享的内容
      • 从Google搜索结果中移除您网站上托管的网页
      • 从搜索结果中移除您网站上托管的图片
      • 让隐去的信息不显示在 Google 搜索中
    • 网站迁移和变更
      • 重定向和Google搜索
      • 网站更换托管服务提供商或迁移到内容分发网络 (CDN)
      • 在更改网址的情况下迁移网站
      • 有关在Google搜索中进行A/B测试的最佳实践
      • 暂停或停用网站
  • Google排名和搜索结果呈现
    • Google搜索结果呈现 主题概览
    • AI概览和您的网站
    • Google搜索的视觉元素库
    • Google搜索结果中的标题链接(Title)
    • Google搜索结果中的摘要(如何撰写元描述)
    • 图片搜索引擎优化 (SEO) 最佳实践
    • 视频搜索引擎优化 (SEO) 最佳实践
    • 影响您在Google搜索中的署名日期
    • 定义要在搜索结果中显示的网站图标(Favicon)
    • 经过翻译的功能-1 Google搜索中的翻译搜索结果
    • 经过翻译的功能-2 让广告网络能够使用与翻译相关的Google搜索功能
    • 精选摘要和您的网站
    • 使内容出现在Google探索中
    • Google搜索结果中的网站名称
    • 搜索结果中的站点链接
    • 在Google上启用网络故事、创建网络故事的最佳做法及内容政策
    • 实施灵活抽样时需遵循的常规指南
    • 本地功能-1 向Google添加商家详情
    • 本地功能-2 热门地点列表优化
    • 本地功能-3 退出Google Local
    • Google搜索和您网站上的备注(实验性功能)
    • “包裹跟踪”功能尝鲜者计划
    • 排名系统
      • Google搜索排名系统指南
      • Google搜索实用内容系统
      • Google搜索的评价系统
    • 页面体验
      • 了解Google搜索结果中的网页体验
      • 了解核心网页指标和Google搜索结果
      • 避免使用干扰性插页式广告和对话框
      • 在Google搜索中使用 Signed Exchange
    • 结构化数据
      • Google搜索中的结构化数据标记简介及其运作方式
      • 结构化数据常规指南
      • 丰富且互动的搜索结果
      • 使用 JavaScript 生成结构化数据
      • Google搜索支持的结构化数据标记(结构化数据列表)
      • 文章(Article、NewsArticle、BlogPosting)结构化数据
      • 图书操作 (Book) 结构化数据
      • 面包屑导航 (BreadcrumbList) 结构化数据(路径)
      • 轮播界面 (ItemList) 结构化数据
      • 课程信息(Course 和 CourseInstance)结构化数据
      • 课程列表 (Course) 结构化数据
      • 数据集(Dataset、DataCatalog、DataDownload)结构化数据
      • 论坛 (DiscussionForumPosting) 结构化数据
      • 知识问答(Quiz、Question 和 Answer)结构化数据
      • 雇主总体评分 (EmployerAggregateRating) 结构化数据
      • 估算工资 (Occupation) 结构化数据
      • 活动 (Event) 结构化数据
      • 事实核查 (ClaimReview) 结构化数据
      • 常见问题解答FAQ(FAQPage、Question、Answer)结构化数据
      • 居家活动 (VirtualLocation) 结构化数据
      • Google 图片中的图片元数据
      • 职位搜索的招聘信息 (JobPosting) 结构化数据
      • 学习视频(LearningResource、VideoObject、Clip)结构化数据
      • 本地商家 (LocalBusiness) 结构化数据
      • 数学求解器 (MathSolver) 结构化数据
      • 影片轮播界面 (Movie) 结构化数据
      • 单位组织 (Organization) 结构化数据
      • 练习题 (Quiz) 结构化数据
      • 产品/商品(Product、Review、Offer)结构化数据简介-0
      • 产品/商品(Product、Review、Offer)结构化数据-1商品摘要
      • 产品/商品(Product、Offer)结构化数据-2商家信息
      • 产品/商品结构化数据(ProductGroup、Product)-3变体(商品款式/规格)
      • 个人资料页面 (ProfilePage) 结构化数据
      • 问答 (QAPage) 结构化数据
      • 食谱(Recipe、HowTo、ItemList)结构化数据
      • 评价摘要(Review、AggregateRating)结构化数据
      • 站点链接 (WebSite) 结构化数据
      • 软件应用 (SoftwareApplication) 结构化数据
      • 订阅和付费内容结构化数据 (CreativeWork)
      • 民宿 (VacationRental) 结构化数据
      • 车辆详情 (Car) 结构化数据
      • 视频(VideoObject、Clip、BroadcastEvent)结构化数据
      • 可朗读(Article、WebPage)结构化数据(Beta 版)
      • COVID-19 通知 (SpecialAnnouncement) 结构化数据(Beta 版)
  • 监控和调试
    • 调试 Google 搜索流量下降问题
    • 通过Search Console进行监控
      • Search Console使用入门
      • 利用Search Console气泡图改进搜索引擎优化 (SEO) 效果
    • 使用搜索运算符进行调试
      • Google 搜索运算符概览
      • site: 搜索运算符
      • cache: 搜索运算符
      • Google图片src: 搜索运算符
    • 预防和监控滥用行为
      • 预防和监控网站上的滥用行为概览
      • 防止网站和平台存在用户生成的垃圾内容
      • 恶意软件和垃圾软件
      • 防止感染恶意软件
      • 社会工程学(钓鱼式攻击和欺骗性网站)
      • Google安全浏览屡次违规网站政策
  • 针对特定网站的指南
    • 电子商务网站
      • 在Google搜索中推广电子商务网站的最佳做法 概览
      • 电子商务内容可以展示在Google上的什么位置
      • 与 Google 分享商品数据
      • 添加电子商务网站的结构化数据
      • 如何在Google上发布新的电子商务网站
      • 撰写优质评价
      • 设计电子商务网站的网址结构
      • 电子商务网站导航结构
      • 分页和增量加载以及它们对 Google 搜索的影响
    • 国际网站和多语言网站
      • 国际性和多语言网站主题概览
      • 管理多区域网站和多语言网站
      • 将网页的本地化版本告知Google
      • Google如何抓取语言区域自适应网页

Google搜索引擎优化 (SEO) 指南(旧版)

  • 谷歌搜索引擎优化(SEO)简介
  • Google搜索基础知识
    • 1.快速入门:了解 Google 搜索的基础知识
    • 2.在 Google 上占有一席之地
    • 3.搜索的工作方式(面向新手)
    • 4.针对搜索引擎优化您的网站
    • 5.衡量您的网站在 Google 上的效果
  • Google新手SEO
    • 1.Google搜索新手入门指南
    • 2.Google 搜索的工作方式
    • 3.Google搜索引擎优化 (SEO) 新手指南
    • 4.您需要 SEO 吗?
    • 5.在 Google 上建立商家详情
    • 6.谷歌站长工具Search Console 新手指南
  • Google高级SEO
    • 1.Google高级SEO使用入门
    • 2.进阶内容:Google 搜索的运作方式
    • 3.Google 搜索使用入门:开发者指南
    • 4.谷歌站长工具Search Console 高级指南
    • 5.Google优化指南
      • 5.1Google优化指南概览(目录)
      • 5.2Google网站站长指南
      • 5.3Google常规指南
        • 5.3-1保持简单的网址结构
        • 5.3-2向 Google 说明您的出站链接的用意
        • 5.3-3将网站标记为面向儿童的内容
        • 5.3-4浏览器兼容性
        • 5.3-5避免创建重复内容
        • 5.3-6确保链接可供抓取
        • 5.3-7确保 Googlebot 未被阻止
        • 5.3-8借助 Google 搜索进行网站测试的最佳做法
      • 5.4针对特定内容的指南
        • 5.4-1Google图片最佳做法
        • 5.4-2Google视频最佳做法
        • 5.4-3Google有关富媒体文件的最佳做法
        • 5.4-4与 Google 搜索中的 AMP 网页相关的准则
        • 5.4-5AJAX增强型网站
        • 5.4-6关于 AJAX 的常见问题解答
        • 5.4-7Google 搜索提供的 COVID-19 资源和提示
      • 5.5网站页面质量指南
        • 5.5-1自动生成的内容
        • 5.5-2欺骗性重定向
        • 5.5-3链接方案
        • 5.5-4付费链接
        • 5.5-5伪装真实内容
        • 5.5-6隐藏文字和链接
        • 5.5-7门页
        • 5.5-8抄袭内容
        • 5.5-9联属计划
        • 5.5-10不相关的关键字(关键字堆砌)
        • 5.5-11创建会执行恶意行为的网页
        • 5.5-12用户生成的垃圾内容
        • 5.5-13阻止垃圾评论的方法
        • 5.5-14举报网络垃圾、付费链接或恶意软件
    • 6.控制抓取和索引编制
      • 6.01抓取和索引编制主题概览(目录)
      • 6.02编入索引简介
      • 6.03创建网址列表
      • 6.04向 Google 提交网址
      • 6.07从 Google 中移除信息
      • 6.08暂停在线商家
      • 6.09整合重复网址
      • 6.10创建自定义 404 网页
      • 6.11转移、移动或迁移网站
      • 6.13Google 可以识别的特殊标记
      • 6.14漫游器元标记、data-nosnippet 和 X-Robots-Tag 规范
      • 6.15管理抓取速度:请求 Google 重新抓取您的网址和减慢 Googlebot 的抓取速度
      • 6.05管理站点地图
        • 6.5-1了解站点地图
        • 6.5-2创建和提交站点地图
        • 6.5-3拆分较大的站点地图
        • 6.5-4视频Sitemap及其替代方案
        • 6.5-5图片站点地图
        • 6.5-6创建 Google 新闻站点地图
      • 6.06阻止访问您的内容
        • 6.6-1阻止访问您的内容
        • 6.6-2控制与 Google 分享的内容
        • 6.6-3使用”noindex”阻止搜索引擎编入索引
        • 6.6-4.1通过 robots.txt 阻止访问-robots.txt 简介
        • 6.6-4.2创建 robots.txt 文件
        • 6.6-4.3向 Google 提交更新后的 robots.txt
        • 6.6-4.4有关漫游器robots.txt的常见问题解答
        • 6.6-4.5Robots.txt 规范
        • 6.6-5阻止您页面上的图片出现在搜索结果中
      • 6.12管理多区域和多语言网站
        • 6.12-1管理多区域和多语言网站
        • 6.12-2将网页的本地化版本告知 Google
        • 6.12-3Google 如何抓取语言区域自适应网页
        • 6.12-4跨语言搜索结果
      • 6.16Google 抓取工具
        • 6.16-1Google 抓取工具(用户代理)概览
        • 6.16-2谷歌机器人Googlebot
        • 6.16-3Google Read Aloud 用户代理
        • 6.16-4APIs-Google 用户代理
        • 6.16-5Feedfetcher
        • 6.16-6网页上的 Duplex”用户代理
        • 6.16-7验证 Googlebot
      • 6.17管理JavaScript内容
        • 6.17-1了解 JavaScript SEO 基础知识
        • 6.17-2解决与 Google 搜索相关的 JavaScript 问题
        • 6.17-3修正延迟加载的内容
        • 6.17-4实现动态呈现
    • 7.更改搜索结果呈现
      • 7.1搜索结果呈现主题概览
      • 7.2控制搜索结果中的标题链接
      • 7.4为网站启用搜索结果功能
      • 7.3控制搜索结果中的摘要
      • 7.5精选摘要和您的网站
      • 7.6站点链接
      • 7.7向 Google 搜索提供发布日期
      • 7.8定义要在搜索结果中显示的网站图标
View Categories
  • 首页
  • 谷歌SEO优化官方文档
  • 谷歌SEO优化指南(新版)
  • Google抓取和编入索引
  • 抓取工具管理

Google抓取工具和抓取器(用户代理)概览

Google 使用抓取工具和抓取器针对其产品执行自动或用户请求的操作。

“抓取工具”(有时也称为“漫游器”或“蜘蛛”程序)是一个通用术语,泛指通过跟踪从一个网页指向另一个网页的链接自动发现并扫描网站的任何程序。Google 用于 Google 搜索的主要抓取工具称为 Googlebot。

与浏览器一样,抓取器是在用户提示时请求单个网址的工具。

下表显示了各种产品和服务使用的 Google 抓取工具和抓取器、在引荐来源网址日志中看到的信息以及如何在 robots.txt 中指定抓取器。这些列表并非详尽无遗,它们仅涵盖日志文件中可能会出现的最常见请求方。

  • 当您为网站编写抓取规则时,应在 robots.txt 文件中的 User-agent: 行内使用用户代理令牌,以便与相应类型的抓取工具匹配。如表中所示,某些抓取工具有多个令牌;但您只需使用与相应抓取工具匹配的 1 个令牌,即可应用规则。此列表并不完整,但涵盖了您在网站上可能会看到的大多数抓取工具。
  • 完整的用户代理字符串是对抓取工具的完整描述,会出现在 HTTP 请求和网站日志中。
    注意:用户代理字符串可能容易遭到仿冒。了解如何验证访问者是否为 Google 抓取工具。

常见抓取工具 #

Google 的常见爬虫用于查找信息,以便构建 Google 搜索索引、执行其他产品特定抓取以及进行分析。它们始终遵循 robots.txt 规则,并且通常会从 googlebot.json 对象中发布的 IP 范围进行抓取。

常见抓取工具

Googlebot(智能手机版) #

用户代理令牌 Googlebot
完整的用户代理字符串 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot(桌面版) #

用户代理令牌 Googlebot
完整的用户代理字符串
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • 很少:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Image #

用于抓取图片(适用于 Google 图片和依赖于图片的产品)。

用户代理令牌
  • Googlebot-Image
  • Googlebot
完整的用户代理字符串 Googlebot-Image/1.0

Googlebot News #

Googlebot News 使用 Googlebot 抓取新闻报道,但会遵循其历史用户代理令牌 Googlebot-News。

用户代理令牌
  • Googlebot-News
  • Googlebot
完整的用户代理字符串 Googlebot-News 用户代理使用各种 Googlebot 用户代理字符串。

Googlebot Video #

用于抓取视频,适用于 Google 视频和依赖于视频的产品。

用户代理令牌
  • Googlebot-Video
  • Googlebot
完整的用户代理字符串 Googlebot-Video/1.0

Google StoreBot #

Google StoreBot 会抓取某些类型的网页,包括但不限于商品详情页、购物车页和结账页。

用户代理令牌 Storebot-Google
完整的用户代理字符串
  • 桌面版代理:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • 移动版代理:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool #

Google-InspectionTool 是 Search Console 中的搜索测试工具(如富媒体搜索结果测试和网址检查)所使用的抓取工具。除了用户代理和用户代理令牌之外,它还模仿 Googlebot。

用户代理令牌
  • Google-InspectionTool
  • Googlebot
完整的用户代理字符串
  • 移动设备
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • 桌面设备
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther #

GoogleOther 是可供各种产品团队用于从网站中抓取可公开访问的内容的通用抓取工具。例如,它可能会用于一次性抓取,供内部研究和开发。

用户代理令牌 GoogleOther
完整的用户代理字符串
  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
  • GoogleOther

GoogleOther-Image #

GoogleOther-Image 是 GoogleOther 的优化版本,用于获取可公开访问的图片网址。

用户代理令牌
  • GoogleOther-Image
  • GoogleOther
完整的用户代理字符串 GoogleOther-Image/1.0

GoogleOther-Video #

GoogleOther-Video 是 GoogleOther 的优化版本,用于获取可公开访问的视频网址。

用户代理令牌
  • GoogleOther-Video
  • GoogleOther
完整的用户代理字符串 GoogleOther-Video/1.0

Google-Extended #

Google-Extended 是一个独立的产品令牌,供网站发布商用于管理其网站是否帮助改进 Gemini 应用和 Vertex AI 生成式 API,包括为这些产品提供支持的模型的未来版本。 Google-Extended 不会对网站列入 Google 搜索结果及其在搜索结果中的排名产生影响。

用户代理令牌 Google-Extended
完整的用户代理字符串 Google-Extended 没有单独的 HTTP 请求用户代理字符串。抓取操作是使用现有的 Google 用户代理字符串进行的;robots.txt 用户代理令牌用于控制权限。

特殊情况下的抓取工具 #

如果在被抓取的网站与产品之间就抓取过程达成协议,特定产品就会使用特殊情况下的抓取工具。例如,AdsBot 会在广告发布商许可的情况下忽略全局 robots.txt 用户代理 (*)。特殊情况下的抓取工具可能会忽略 robots.txt 规则,因此使用的 IP 范围不同于常见抓取工具。这些 IP 范围发布在 special-crawlers.json 对象中。

特殊情况下的抓取工具

APIs-Google #

供 Google API 传递推送通知消息。忽略 robots.txt 中的全局用户代理 (*)。

用户代理令牌 APIs-Google
完整的用户代理字符串 APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdsBot Mobile Web #

检查移动网页广告质量。 忽略 robots.txt 中的全局用户代理 (*)。

用户代理令牌 AdsBot-Google-Mobile
完整的用户代理字符串 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot #

检查桌面版网页广告质量。忽略 robots.txt 中的全局用户代理 (*)。

用户代理令牌 AdsBot-Google
完整的用户代理字符串 AdsBot-Google (+http://www.google.com/adsbot.html)

AdSense  #

AdSense 抓取工具通过访问您的网站确定网站内容,以便提供相关的广告。忽略 robots.txt 中的全局用户代理 (*)。

用户代理令牌 Mediapartners-Google
完整的用户代理字符串 Mediapartners-Google

Mobile AdSense #

Mobile AdSense 抓取工具通过访问您的网站确定网站内容,以便提供相关的广告。忽略 robots.txt 中的全局用户代理 (*)。

用户代理令牌 Mediapartners-Google
完整的用户代理字符串 (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Google-Safety #

Google-Safety 用户代理负责处理针对滥用行为的抓取,例如对 Google 产品和服务上公开发布的链接进行恶意软件发现。此用户代理会忽略 robots.txt 规则。

完整的用户代理字符串 Google-Safety

用户触发的抓取器 #

用户触发的抓取工具由用户启动,以执行特定于产品的抓取功能。 例如,Google 网站验证工具会根据用户的请求执行操作,或者 Google Cloud (GCP) 上托管的网站具有允许网站用户检索外部 RSS Feed 的功能。由于是用户请求的抓取,因此这些抓取工具通常会忽略 robots.txt 规则。用户触发的抓取工具使用的 IP 范围会发布在 user-triggered-fetchers.json 和 user-triggered-fetchers-google.json 对象中。

用户触发的抓取器

Feedfetcher #

Feedfetcher 用于为 Google 播客、Google 新闻和 PubSubHubbub 抓取 RSS 或 Atom Feed。

用户代理令牌 FeedFetcher-Google
完整的用户代理字符串 FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google 发布商中心 #

抓取并处理发布商通过 Google 发布商中心明确提供的 Feed,以便在 Google 新闻着陆页中使用。

完整的用户代理字符串 GoogleProducer; (+http://goo.gl/7y4SX)

Google Read Aloud #

根据用户请求,Google Read Aloud 会使用文字转语音 (TTS) 技术来抓取并朗读网页内容。

完整的用户代理字符串 现用代理:

  • 桌面版代理:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • 移动版代理:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

曾用代理(已弃用):

google-speakr

Google 网站验证工具 #

Google 网站验证工具会在用户请求 Search Console 验证令牌时进行抓取。

完整的用户代理字符串 Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

关于用户代理中的 Chrome/W.X.Y.Z 的说明 #

表中的用户代理字符串中有时候会出现 Chrome/W.X.Y.Z 字符串,W.X.Y.Z 实际上是代表该用户代理使用的 Chrome 浏览器版本的占位符:例如,41.0.2272.96。随着时间的推移,此版本号会增大,以便与 Googlebot 使用的最新 Chromium 发布版本相匹配。

如果您要搜索日志或过滤服务器以查找使用此格式的用户代理,请用通配符表示版本号,而不是指定确切的版本号。

robots.txt 中的用户代理 #

如果 Google 在 robots.txt 文件中识别出多个用户代理,将会跟踪最具体的用户代理。如果您希望 Google 的所有抓取工具都能够抓取您的网页,根本不需要使用 robots.txt 文件。如果您希望禁止或允许 Google 的所有抓取工具访问您的某些内容,只需将 Googlebot 指定为用户代理即可。例如,如果您希望您的所有网页都出现在 Google 搜索中,并且您的网页能够显示 AdSense 广告,便无需使用 robots.txt 文件。同理,如果您希望 Google 的所有抓取工具都不能访问您的某些网页,可以禁止用户代理 Googlebot,这样会一并禁止 Google 的所有其他用户代理。

不过,如果您希望更加精确地控制抓取范围,可以采取更具体的设置。例如,您可能希望您的所有网页都出现在 Google 搜索中,但不希望 Google 抓取您个人目录中的图片。在这种情况下,您可以使用 robots.txt 禁止用户代理 Googlebot-Image 抓取您个人目录中的文件(同时允许 Googlebot 抓取所有文件),具体如下:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

再举个例子,假设您希望自己的所有网页上都显示广告,但不希望这些网页出现在 Google 搜索中。这时,您可以禁止 Googlebot,但允许 Mediapartners-Google 用户代理,具体如下:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

控制抓取速度 #

每个 Google 抓取工具都会出于特定目的以不同的速度访问网站。Google 使用算法确定每个网站的最佳抓取速度。如果 Google 抓取工具过于频繁地抓取您的网站,您可以降低抓取速度。

弃用的 Google 抓取工具 #

以下 Google 抓取工具已不再使用,此处仅作历史参考。

弃用的 Google 抓取工具

网页上的 Duplex #

支持“网页上的 Duplex”服务。

用户代理令牌 DuplexWeb-Google
完整的用户代理字符串 Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
注意:“网页上的 Duplex”可能会忽略 * 通配符。

Web Light #

每当用户在相应条件下在搜索结果中点击您的网页时,系统就会检查是否存在 no-transform 标头。Web Light 用户代理仅用于人类访问者的明确浏览请求,因此会忽略用于屏蔽自动抓取请求的 robots.txt 规则。

用户代理令牌 googleweblight
完整的用户代理字符串 Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

AdsBot Mobile Web #

检查 iPhone 网页广告质量。 忽略 robots.txt 中的全局用户代理 (*)。

用户代理令牌 AdsBot-Google-Mobile
完整的用户代理字符串 Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Mobile Apps Android #

检查 Android 应用页面广告质量。遵守 AdsBot-Google 漫游器规则,但忽略 robots.txt 中的全局用户代理 (*)。

用户代理令牌 AdsBot-Google-Mobile-Apps
完整的用户代理字符串 AdsBot-Google-Mobile-Apps

Google Favicon #

用户代理令牌
  • Googlebot-Image
  • Googlebot
完整的用户代理字符串 Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
分享这篇文章 :
  • Facebook
  • X
  • LinkedIn
  • Pinterest
更新 2024年6月24日

暂无评论

再想想
暂无评论...
文档目录
  • 常见抓取工具
    • Googlebot(智能手机版)
    • Googlebot(桌面版)
    • Googlebot Image
    • Googlebot News
    • Googlebot Video
    • Google StoreBot
    • Google-InspectionTool
    • GoogleOther
    • GoogleOther-Image
    • GoogleOther-Video
    • Google-Extended
  • 特殊情况下的抓取工具
    • APIs-Google
    • AdsBot Mobile Web
    • AdsBot
    • AdSense 
    • Mobile AdSense
    • Google-Safety
  • 用户触发的抓取器
    • Feedfetcher
    • Google 发布商中心
    • Google Read Aloud
    • Google 网站验证工具
  • 关于用户代理中的 Chrome/W.X.Y.Z 的说明
  • robots.txt 中的用户代理
  • 控制抓取速度
  • 弃用的 Google 抓取工具
    • 网页上的 Duplex
    • Web Light
    • AdsBot Mobile Web
    • Mobile Apps Android
    • Google Favicon
SEO算法教程

Copyright © 2021 SEO工具导航 粤ICP备15089945号-7 粤公网安备 44098102441079号

  
常用
搜索
工具
社区
生活
    热门推荐: