当前位置:首页> SEO教程

seo怎么阻止垃圾蜘蛛的抓取?

分类:SEO教程  发布时间:2020-04-14 15:23:40  阅读:

  作为网站负责人,您是否关注IIS日志的详细信息?如果没有,我敢肯定您网站的很多带宽都被所谓的蜘蛛占用。即使您的带宽非常猛烈,您也不在乎那种流量,但是从优化到极限,这远远超出了标准。

  蜘蛛分为真蜘蛛和假蜘蛛。通常,大型搜索引擎蜘蛛,例如百度和Google蜘蛛,假蜘蛛通常被分类为垃圾搜索引擎和恶意爬虫。其中,对百度蜘蛛的真假分析,可以使用语法“ nslookup ip”来查看源是否是百度的子站点。如果不是,那就是变相的百度蜘蛛。如果仔细分析,您会发现一些国内或国外的蜘蛛,例如EasouSpider,AhrefsBot等。这些蜘蛛是无用的。如果您定位的市场是国内市场,百度百度蜘蛛,谷歌Googlebot,360 360Spider,soso Sosospider,搜狗+网络+蜘蛛,那么足以让这些蜘蛛爬行,所有其他蜘蛛都应该被屏蔽,并且您的静态资源,例如Image,JS和CSS的路径,也应屏蔽。这些资源他们不需要蜘蛛来爬网,因为没有价值可显示。

  如何添加特定的屏蔽?您可以手动创建robots.txt文件,并将其放在网站的根目录中。例如,填写以下内容:User-Agent:AhrefsBot不允许:/,这表示不允许AhrefsBot蜘蛛抓取任何页面。可以这样填充其他盾牌;如果您不填写内容,也可以转到百度网站管理员平台,直接生成robots.txt文件,地址为:http://zhanzhang.baidu.com/robots/index,然后将文件更新为网站的根目录;

  通过阻止不必要的蜘蛛爬行,您可以轻松避免浪费带宽和流量。当然,对于遵循Internet协议的网络公司来说,这是一种非常有效的方法。它不排除存在不遵循行业标准的恶意爬网程序。要禁止这些行为,只有在有确切证据的情况下直接屏蔽Ip才有效。