巧用robots避免蜘蛛黑洞

针对百度搜索百度搜索引擎而言,搜索引擎蜘蛛超级黑洞专指网址根据非常低的成本费生产制造出很多主要参数过多,及內容类同但实际主要参数不一样的动态性URL ,如同一个不断循环的“超级黑洞”将spider缠住,Baiduspider消耗了很多資源爬取的确是失效网页页面。

例如许多网址都是有挑选作用,根据挑选作用造成的网页页面常常会被百度搜索引擎很多爬取,而这在其中非常大一部分查找使用价值不高,如“500-1000中间价钱的租房子”,最先网址(包含实际中)上基础沒有有关資源,次之站内客户和百度搜索引擎客户也没有这类查找习惯性。这类网页页面被百度搜索引擎很多爬取,只有是占有网址珍贵的爬取配额制。那麼该怎样防止这类状况呢?

大家以北京市某团购网为例子,看一下该网址是怎样运用robots恰当防止这类搜索引擎蜘蛛超级黑洞的:

针对一般的挑选結果页,该网址挑选应用静态数据连接,如:https://bj.XXXXX.com/category/zizhucan/weigongcun

一样是标准挑选結果页,当客户挑选不一样排列标准后,会转化成含有不一样主要参数的动态链接,并且即便是同一种排列标准(如:全是按销售量降序排序),转化成的主要参数也全是不一样的。如:https://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index/poi.0.0.i1afqhek

https://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index/poi.0.0.i1afqi5c

针对该团购网而言,只让百度搜索引擎爬取挑选結果页就可以了,而各种各样带主要参数的結果排列网页页面则根据robots标准回绝出示给百度搜索引擎。

robots.txt的文档使用方法中有那样一条标准:Disallow: /*?* ,即严禁百度搜索引擎浏览网址中全部的动态性网页页面。该网址恰好是根据这类方法,对Baiduspider优先选择展现高品质网页页面、屏蔽掉低品质网页页面,为Baiduspider出示了更友善的网址构造,防止了黑洞的形成。

本站软件,教程,程序等资源均来自网友发布或互联网收集,仅供用于学习和交流,本站不承担任何技术及版权问题,请在下载后24小时内删除,请勿用于非法用途。
转载请注明出处:
诸葛网赚 » 巧用robots避免蜘蛛黑洞