robots文件问题咨询
robots文件既然分Allow: /和Disallow: /
我的问题是我先要被抓取的很简单只有首页、栏目页、文章页,
除此以外各种图片、会员、任务、等等目录都没有收录价值而且非常杂乱,禁止起来比较麻烦。
那么我只书写Allow: 首页、栏目页、文章页目录就可以了吗? 它会识别以外不抓取吗?如果不是的话Allow: /存在的意义是什么
麻烦大神告知我的情况应该如何书写robost文件,必须一个一个去找除了首页、栏目页、文章页目录以外的路径吗?
Allow只是告诉搜索引擎重点去抓取哪些内容,并不是说没写就不会抓取,只有写上Disallow才不会去抓取你的内容,需要提醒你的是,Robots是设置网站根目录抓取的协议,比如一般在根目录中,图片是集中放在一个目录里的,如果你不想被抓取图片、会员、任务这些内容,找到对应的根目录路径,写上Disallow就行了。
###只要不禁止全站就行了,想要了解更多就来帝佑科技吧
###我就没写,随便抓
###1、Robots 你只要不禁全站就ok;
2、robots是为了让蜘蛛更好更便捷的抓取,节省时间;
3、不想被收录的只需要禁止目录文件夹即可,你允许那几个栏目爬行,并不意味着你其他栏目就不抓取,你需要禁止才能不被爬行;
4、建议先分析网站日志,看看是否有蜘蛛爬行,爬行那些文件夹等,在做考虑。
###把不必要的页面写上就可以了,这样省取蜘蛛抓取时间,只有就不分权重,把权重利用起来
###一般企业站即使你设置了这些,蜘蛛还是抓取,莫不如直接默认的Robots文件就行了,就连淘宝那么大的站设置了禁止百度蜘蛛抓取,最后百度蜘蛛不还是强行抓取嘛
###说实话,写不写都无所谓
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/108152.html