将文档和图片发布到网络中时,您可能会无意中将一些不应直接对公众可见的信息发布出来。尤其是一些您可能看不到或应被隐去的信息,这类信息可能会包含在某些格式的文档中,并可在搜索引擎中显示。
由于搜索引擎会将网络中的公开内容(包括图片)编入索引,因此用户或许能在搜索引擎中找到一些未完全隐去的内容。屏幕阅读器等辅助技术可能会使这类看似“已隐藏”的内容更易于访问,而光学字符识别 (OCR) 等常见的图像识别技术也同样会使这类内容有可能被搜索到。
虽然将文字设成超小字号、将文字颜色设成与所在背景的颜色相同或使用图片遮盖文字可能会使内容对肉眼来说不可见,但这些方法并没有将内容实际隐去,因此内容仍可被搜索引擎编入索引并可被用户找到。
同样,某些类型的文档会通过各种方式使所含信息不直接可见。这些类型可能包括文档的更改历史记录,使用户能了解哪些文字曾被隐去或更改;它们可能保留了部分信息被剪裁或隐去的图片的完整版本;文件中可能还包含某些元数据,这些元数据不会直接可见,但可能会列出曾访问或修改过该文件的人员名称。
即使文档被导出或从一个格式转换为另一格式,这类信息仍可能会全部得以保留。如果您需要从文件中移除信息,请务必在公开发布文件前完全移除这些信息。
如需了解如何恰当地从文档中隐去信息,使其既不被编入索引又无法通过 Google 搜索找到,请参考下面列出的一些最佳实践。
先修改和导出图片,然后再嵌入图片 #
Google 搜索会列出其在网络中找到的图片,包括网页上的图片或各种格式的文档中嵌入的图片。嵌入的图片有时只使用图片所在文档的编辑工具进行修改。如果图片与文档被分开编入索引,则可能导致隐去设置失效。因此,最好在将图片嵌入文档之前(而不是之后)修改图片。尤其要注意:
- 在将图片嵌入文档之前,先剪裁掉图片中不需要的信息。某些文档编辑工具(如文字处理程序或幻灯片制作工具)会保留您在文档的公开版本中使用的所有未剪裁版图片,因此请务必仔细阅读该工具的说明文档。
- 完全移除或模糊处理图片中的所有文字或其他非公开的部分,因为 OCR 系统可能会将其发现的所有图片文字转换成可搜索的文字。
- 移除所有不需要的元数据。
按照本文档中的建议操作后,将更新后的图片导出或保存为非矢量或经过拼合处理的图片文件格式,例如 PNG 或 WEBP。这样可以防止图片中的这些部分无意中包含在公开文档中。
先修改或移除不需要的文字,然后将文档转换为公开文件格式 #
生成公开文档之前,请移除您不希望在文件的最终版本中显示的任何文本。接着,将文档转换成不会保留之前的更改历史记录的公开格式。更具体的提示如下:
- 如果您需要隐去文件中的信息,请使用合适的文档内容隐去工具。例如,请勿将黑色的长方形置于文字上方进行遮盖,因为这样可能导致文字仍包含在公开文档中。
- 仔细检查公开文件中的文档元数据。
- 遵循适合您所用格式(PDF、图片等)的文档内容隐去最佳做法。
- 考虑到网址中的信息或文件名本身。即使网站中的部分内容已被 robots.txt 屏蔽,无法被抓取,但相应网址可能会被 Google 搜索编入索引(不含网址内容)。请在网址参数中使用哈希值(而非电子邮件地址或名称)。
- 考虑使用身份验证来限制对隐去内容的访问权限。使用 noindex robots meta 标记提供生成的登录页面,阻止系统将其编入索引。
- 发布网站时,请确保该网站在 Google Search Console 中已经过验证。这样可以确保在需要时快速执行移除操作。
如果文档中的相应内容没有隐去或隐去方式不当,且文档已被 Google 搜索编入索引,该怎么办 #
- 将已上线的文档从其发布网站或所在位置移除。
- 使用“移除”工具处理经过验证的网站,将相关文档从 Google 搜索中移除。如果您需要移除多个文档,请使用网址前缀。对于经过验证的网站,网址移除程序通常可在一天内完成。这样可以防止文档出现在被隐去内容的搜索结果中。
- 将正确隐去内容的文档托管在其他网址下。这样可确保所有新编入索引的版本均为新版文档而非旧版文档,因为重新抓取网址并在搜索索引中更新网址可能需要一些时间。更新指向这些文档的所有链接。
- 如果有任何其他网站可能也托管了未正确隐去内容的文档,请与其网站管理员联系,要求对方移除这些文档。请对方通过其 Search Console 账号中的“移除”工具进行操作,您也可以使用“移除过期内容”工具请求 Google 系统更新搜索结果。
- 请等待网址移除请求过期;如果 Google 搜索索引中的相应网址得以更新,或距网址移除请求提交之日已过去大约 6 个月,请求便会过期。