17713433920 info@mac163.com

有时您需要从Google搜索结果中排除特定的WordPress内容或文件。在Google和其他搜索引擎出现之前,索引或“索引编制”一词通常与书籍相关。它通常位于大多数书籍的背面,这就是为什么剑桥词典在这种情况下将其定义为:

索引:按字母顺序排列的列表,例如印在书后的列表,显示主题,名称等在哪一页上。

快进到1995年,在互联网蓬勃发展期间,我们提供了Yahoo搜索引擎之类的服务;到了1997年,Google搜索已大大改变了我们在互联网上搜索和访问信息的方式。

根据2018年1月进行的一项调查,互联网上有1,805,260,010个网站(超过18亿个),其中许多网站根本没有访问者。

什么是Google索引编制?

有不同的搜索引擎具有不同的索引格式,但是流行的搜索引擎包括Google,Bing和对隐私敏感的人的duckduckgo。

Google索引通常是指添加新网页(包括文档,视频和图像等数字内容)并将其存储在数据库中的过程。换句话说,为了使您网站的内容出现在Google搜索结果中,首先需要将它们存储在Google索引中。

Google能够使用其爬虫,爬虫或漫游器对所有这些数字页面和内容建立索引,这些爬虫,爬虫或机器人会反复爬网Internet中的不同网站。这些漫游器和爬虫的确遵循网站所有者的指示,以进行爬网以及在爬网期间应忽略的内容。

如何从google搜索中排除wordpress内容
如何从google搜索中排除wordpress内容

为什么需要对网站建立索引?

在这个数字时代,几乎不可能浏览数十亿个找到特定主题和内容的网站。如果有一种工具可以向我们显示哪些站点值得信赖,哪些内容有用并与我们相关,则将更加容易。这就是Google存在并在搜索结果中对网站进行排名的原因。

索引已成为一般搜索引擎(尤其是Google)如何工作的必不可少的部分。它有助于识别最能描述页面的单词和表达方式,并总体上有助于页面和网站排名。要在Google网站的首页上显示,包括网页和数字文件(例如视频,图像和文档),首先需要进行索引。

索引编制是网站在一般搜索引擎(尤其是Google)上获得良好排名的先决条件。使用关键字,在被搜索引擎索引和排名之后,可以更好地查看和发现网站。然后,这为您的网站和业务的更多访问者,订户和潜在客户打开了大门。

隐藏尸体的最佳位置是Google的第二页。

虽然拥有大量索引页面并不会自动使您的网站排名更高,但是如果这些页面的内容同样高质量,那么您在SEO方面就可以得到提升。

为什么和如何阻止搜索引擎将内容编入索引

虽然索引非常适合网站所有者和企业主,但您可能不希望在搜索结果中显示某些页面。您也可能会冒险通过Internet公开敏感文件和内容。如果没有密码或身份验证,则如果漫游器可以随意控制网站的文件夹和文件,则私人内容将有暴露和未经授权访问的风险。

在2000年代初期,黑客使用Google搜索通过简单的搜索查询显示来自网站的信用卡信息。许多黑客使用此安全漏洞从电子商务网站窃取卡信息。

去年,另一个流行的云存储系统box.com发生了另一个安全漏洞。Swisscom威胁情报经理Markus Neis暴露了安全漏洞。他报告说,对包括Google和Bing在内的搜索引擎的简单利用可能会泄露许多企业和个人客户的机密文件和信息。

此类情况确实是在线发生的,并可能导致企业主的销售和收入损失。对于公司,电子商务和会员网站,至关重要的是,首先阻止敏感内容和私有文件的搜索索引,然后将它们放置在体面的用户身份验证系统之后。

让我们看一下如何控制Google和其他搜索引擎可以检索和索引的内容和文件。

1.对图像使用Robots.txt

Robots.txt是位于您网站根目录的文件,可为Google,Bing和其他搜索引擎机器人提供有关抓取内容和不抓取内容的说明。虽然robots.txt通常用于控制抓取流量和网络(移动与台式机)抓取工具,但它也可以用于防止图片出现在Google搜索结果中。

普通WordPress网站的robots.txt文件如下所示:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

标准robots.txt文件以用户代理说明和星号开头。星号是对到达网站的所有漫游器都遵循其下面提供的所有说明的说明。

使用Robot.txt使机器人远离特定的数字文件

Robots.txt也可用于停止搜索引擎对数字文件(例如PDF,JPEG或MP4)的爬网。要阻止搜索PDF和JPEG文件的爬网,应将其添加到robots.txt文件中:

PDF文件

User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf$  # Block pdf files from all bots. Albeit non-standard, it works for major search engines.

图片

User-agent: Googlebot-Image
Disallow: /images/cats.jpg #Block cats.jpg image for Googlebot specifically.

如果您想在允许其他图像格式(例如JPEG和PNG)的同时,阻止所有.GIF图像被索引并显示在Google图像搜索中,则应使用以下规则:

User-agent: Googlebot-Image
Disallow: /*.gif$

重要提示:以上摘录仅会阻止您的内容被第三方网站(例如Google)编入索引。如果有人知道在哪里看,它们仍然可以访问。要将文件设为私有,以便没人能访问它们,您需要使用另一种方法,例如这些内容限制插件

Googlebot图像可用于阻止图像和特定的图像扩展名出现在Google图像搜索中。如果您想将它们从所有Google搜索(例如网络搜索和图片)中排除,建议改用Googlebot用户代理。

网站上其他元素的其他Google用户代理还包括适用于视频的Googlebot视频,该视频可在网络上的Google视频部分中应用。同样,使用Googlebot用户代理将阻止所有视频显示在Google视频,网络搜索或移动网络搜索中。

请记住,由于以下限制,使用Robots.txt不是阻止敏感或机密文件和内容的适当方法:

  • Robots.txt只能指导行为良好的抓取工具;其他不合规的搜索引擎和漫游器可以简单地忽略其指令。
  • Robots.txt不会阻止您的服务器根据请求将这些页面和文件发送给未经授权的用户。
  • 如果搜索引擎与其他网站和来源链接在一起,它们仍然可以查找并索引您阻止的页面和内容。
  • 任何可以阅读您提供的所有说明并直接访问这些内容和文件的人都可以访问Robots.txt

为了阻止搜索索引并更有效地保护您的私人信息,请改用以下方法。

2.对页面使用无索引元标记

使用无索引元标记是一种阻止您的网站上敏感内容的搜索索引的正确且有效的方法。与robots.txt不同,no-index元标记使用非常简单的HTML标记放置在网页的<head>部分中:

<html>
<head>
<title>...</title>
<meta name="robots" content="noindex">
</head>

标头上带有此说明的任何页面都不会出现在Google搜索结果中。也可以使用其他指令(例如nofollow和notranslate)告诉Web爬网程序不要爬网链接,并分别提供该页面的翻译。

您可以通过使用页面上的多个元标记来指示多个搜寻器,如下所示:

<html>
<head>
<title>...</title>
<meta name="googlebot" content="nofollow">
<meta name="googlebot-news" content="nosnippet">
</head>

有两种方法可以将此代码添加到您的网站。您的第一个选择是创建WordPress子主题,然后在您的functions.php中,可以使用WordPress wp_head操作钩插入noindex或任何其他元标记。下面是一个示例,说明如何不对登录页面进行索引。

add_action( 'wp_head', function() {
    if ( is_page( 'login' ) ) {
        echo '<meta name="robots" content="noindex">';
    }
} );

第二种选择是使用SEO插件来控制页面的可见性。例如,使用Yoast SEO,您可以转到页面的高级设置部分,然后只需选择“否”作为允许搜索引擎显示页面的选项即可:

3.对其他文件使用X-Robots-Tag HTTP标头

X-Robots-Tag为您提供了更大的灵活性来阻止对内容和文件进行搜索索引。特别是,与无索引元标记相比,它可以用作任何给定URL的HTTP标头响应。例如,您可以将X-Robots-Tag用于图像,视频和文档文件,而无法使用Robots元标记。

您可以阅读Google的完整漫游器元标记指南,但是可以通过以下方法指示抓取工具不要在其HTTP响应上使用X-Robots-Tag跟踪和索引JPEG图像:

HTTP/1.1 200 OK
Content-type: image/jpeg
Date: Sat, 27 Nov 2018 01:02:09 GMT
(…)
X-Robots-Tag: noindex, nofollow
(…)

可以与漫游器元标记一起使用的任何指令也适用于X-Robots-Tag。同样,您也可以指示多个搜索引擎机器人:

HTTP/1.1 200 OK
Date: Tue, 21 Sep 2018 21:09:19 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
(…)

请务必注意,搜索引擎机器人会在抓取过程中发现机器人元标记和X-Robots-Tag HTTP标头。因此,如果您希望这些漫游器遵循您的指示以不遵循或索引任何机密内容和文档,则不得阻止这些页面和文件URL的爬网。

如果使用robots.txt文件阻止它们进行爬网,则不会读取您的索引编制说明,因此将其忽略。因此,如果其他网站链接到您的内容和文档,则它们仍将被Google和其他搜索引擎索引。

4.对Apache服务器使用.htaccess规则

您也可以将X-Robots-Tag HTTP标头添加到.htaccess文件中,以阻止搜寻器将Apache服务器上托管的网站的页面和数字内容编入索引。与无索引元标记不同,.htaccess规则可以应用于整个网站或特定文件夹。它对正则表达式的支持为您一次定位多个文件类型提供了更高的灵活性。

要阻止Googlebot,Bing和Baidu抓取网站或特殊目录,请使用以下规则:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* - [R=403,L]

要阻止整个网站上所有.txt,.jpg,.jpeg,.pdf文件的搜索索引,请添加以下代码段:

<Files ~ "\.(txt|jpg|jpeg|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

5.使用具有用户名和密码的页面身份验证

上述方法将阻止您的私人内容和文档出现在Google搜索结果中。但是,任何具有链接的用户都可以访问您的内容并直接访问您的文件。为了安全起见,强烈建议您使用用户名和密码以及角色访问权限设置正确的身份验证。

例如,包含员工个人档案和敏感文档的页面(匿名用户不得访问)的页面应推到身份验证门后面。因此,即使用户设法以某种方式找到页面,在签出内容之前也将要求他们提供凭据。

为此,只需将WordPress的可见性设置为受密码保护即可。这样,您可以选择查看该页面上的内容所需的密码。在每个帖子/页面的基础上,这很容易做到。为了获得更全面的网站隐私,请尝试向您的网站添加以下WordPress成员资格插件之一  。

请记住,来自搜索引擎和访问者的受密码保护或隐藏的页面不一定保护其内容所附的文档,视频和图像。为了真正保护您的WordPress文件上传,强烈建议您使用高级服务,例如“  防止直接访问金牌”


微信二维码

微信扫描二维码联系我们!
我们在微信上24小时期待你的声音
提供外贸路由器设备产品,轻松翻墙,解答:WP主题推荐,WP网站建设,Google SEO,百度SEO,专业服务器环境搭建等!


需要提供WordPress主题/插件的汉化服务可以随时联系我们!另外成品WordPress网站以及半成品WordPress网站建设,海外Google SEO优化托管服务,百度SEO优化托管服务,Centos/Debian服务器WP专用环境搭建,WP缓存服务器搭建,我们都是你的首选,拥有多年WP开源程序服务经验,我们一直在坚持客户体验,没有最好,只有更好!
回到顶部