例如:
Disallow: /404.html
搜索引擎会怎么看?
404是状态,是页面,两者不矛盾
当发现网页URL已经失效,则向服务器发出请求返回404状态,同时根据服务器配置返回指定的404页面,这个过程貌似与蜘蛛是否抓取无关,与服务器设置有关。
404页面是404状态码出现时服务器通过配置调用给用户看的一个页面,这个页面是在前台页面中不存在导入链接的,所以不需要屏蔽掉。蜘蛛访问死链的时候,如果你设置了404页面才会显示,如果没有会显示IIS自带的页面,而蜘蛛在这个时候是不在乎404页面的内容的,而是在乎你的网站是否返回的404状态码。所以看出,屏蔽掉和不屏蔽掉,我觉得没有任何的关系。除却一种情况就是你的前台页面中有链接指向你服务器的404页面文件,那么这个时候404页面就会被当成是一个普通的页面,不在仅仅是404状态码返回给用户的视觉体验,而是像你网站所有页面中的一个页面一样是可以在前台被蜘蛛爬行和抓取的,这个时候屏蔽掉就会和屏蔽普通页面一样,蜘蛛会遵循你的Robots里面的设置来执行。两种情况会有两种不同的结果。
###个人认为不屏蔽:
1、如果网站的错误页面404很多,屏蔽了,可以减少搜索引擎分配给这些“”垃圾“”页面的权重。减少蜘蛛的不必要爬取,以及有的人认为蜘蛛迷路(鬼扯)。
2、但是否这真的有必要?减少这些页面也即意味着减少了网站的流量,减少了一个给网站展示的机会。
我们再来看看404页面的目的:告诉浏览者其所请求的页面不存在或链接错误,同时引导用户使用网站其他页面而不是关闭窗口离开。
结合google的优化思想,第一条根本不用在乎,所以我的建议是,不屏蔽。
从蜘蛛角度看只是屏蔽了一个普通的页面,而屏蔽掉404页面是否会影响其作用? 蜘蛛是爬行进404页面后才会标记这条链接,有个猜想:如果404页面被屏蔽了,蜘蛛是不是就会不进入404页面了?
既然蜘蛛不会爬进,在蜘蛛爬到了死链接然后跳进了404页面,在跳进的过程中,被告知此链接不能爬进去,蜘蛛就回头了,但是,蜘有没有对这条死链接标记呢?如果没有标记蜘蛛下次还会爬行这条死链接,404页面的作用也就失效了。(个人想法)
搜索引擎爬虫会自己判断网页返回的是不是404码,不需要专门设置。
即使出现网页错误、删除或者禁止访问,蜘蛛还是会爬行到404、403、503等页面上。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/17077.html