好似淘宝相近,屏蔽掉百度爬虫爬取了淘宝,自然大家做网站优化的一般状况下是不用屏蔽掉百度爬虫的,可是在必需的情况下,大家也会应用到屏蔽掉搜索引擎蜘蛛的情况下,例如网址的登入页面与注册网页或是是动态性网页页面都必须根据屏蔽掉搜索引擎蜘蛛爬取。以防权重值分散化。下边来详细介绍好多个屏蔽掉百度爬虫爬取的方式

淘宝屏蔽百度抓取

一、robots.txt屏蔽掉百度爬虫爬取

淘宝便是应用了这类技术性来屏蔽掉百度搜索爬取的,因此我们可以见到,在淘宝的robots文件里边有一句那样的话:

User-agent: baiduspider
Disallow: /

其目地便是屏蔽掉百度爬虫爬取淘宝的随意一个网页页面,可是这类方式 屏蔽掉的并并不是很彻底,我们在网页搜索“淘宝”还会出現官网的。

二、robotsMeta标签

robotsMeta标签还可以屏蔽掉百度搜索引擎爬取,这类方式 与robots相近,可是還是一部分百度搜索引擎不兼容,robotsMeta用于对某好多个网页页面独立设定时应用。其编码是写在“<head>…</head>”中间,以下所显示:

<head>…

<metaname=”robots”content=”index,follow”/>

</head>

三、.htaccess屏蔽掉

假如说应用robor没法所有屏蔽掉你的网址,那麼你能.htaccess屏蔽掉编码以下:

方式 1:

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]

RewriteRule .* - [F]

方式 2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>

Order Allow,Deny

Allow from all

Deny from env=bad_bot

</Limit>

四、网络服务器屏蔽掉

很多室内空间商以便降低网络服务器压力,有意屏蔽掉搜索引擎蜘蛛爬取,造成网址没法被百度搜索引擎百度收录,在这儿大家还可以设定运用网络服务器屏蔽掉搜索器的爬取。关键基本原理是剖析网站流量统计,寻找百度搜索引擎爬取的IP,随后对其IP开展屏蔽掉。可是这类方式 并并不是很好用,终究不可以屏蔽掉单网页页面和改动都并不是很灵便。具体做法必须参照端口设置。

小结:方式 诸多,仅仅在这儿写出去供大伙儿参照,本人感觉最应用的還是robots文件,因此别的几类方式 立即能用,可是還是提议不必去做。

本站软件,教程,程序等资源均来自网友发布或互联网收集,仅供用于学习和交流,本站不承担任何技术及版权问题,请在下载后24小时内删除,请勿用于非法用途。
转载请注明出处:
诸葛网赚 » 屏蔽百度蜘蛛的方法