(注明:转载问题,自己也想知道怎么解决)最近一个月,我的站收录异常,通常是头天加100,二天减50,或者干脆一个横岗躺着不动,再也不复之前的一条斜线
分析日志之一
第一次看到我的网站日志,我惊呆了,在用户状态码的404里面,存在大量请求,/ WWWPMUMECOM.ZIP、 / PMUME.COM.ZIP、 / WWWROOT.ZIP 、 / ADMIN.ZIP,这时有人在攻击我的站啊。的确,我曾经打包过我的全部代码,型号压缩包名不是这些。
404
再看蜘蛛状态码,前段时间,我只知道404,所以就看了404,404也好多啊,百度蜘蛛的404错误请求次数达到了300多,而当天的蜘蛛请求总数是3000多点,有十分之一的时候蜘蛛吃了闭门羹。蛛蛛,对不起了,我改。
于是,我开始对照404的页面进行整改。一是清除网站上不小心留下的死链,二是添加到死链文档,站长后台提交。
经过这样做,404错误减少了不少。但减少为0是不可能了,因为有很多莫名其妙的目录请求,根本不可能是蛛蛛从我站里获得的,应该是其他站给我的错误链接。这个不知道咋解决!谁有好方法?
200
又过了几天,收录情况还没明显改善,我再分析日志,又发现大问题,在200页面里面,好多无关紧要的页面占据了大量请求,例如/pf/rate.php 这个是文章页的一个评分插件,没有任何意义,可当天请求数就达到了近200。这些我不想要的请求数加起来,差不多有1000了,哦,MY GOD! 当天总请求数只有2000多,这些东西居然占了一半。
解决,把不希望访问的页面写进robots.txt里面。百度蜘蛛对robots.txt反应好迟钝,差不多一个星期才见效。
304
经过这么一折腾,好像是有点效果,收录增加得多,减少的少,至少我看着日志就舒服多了。我又看到报告的第一个是304状态,就好奇了,这是啥?就查资料。真是不看不知道,一看吓一跳:“自从上次请求后,请求的网页未修改过。 服务器返回此响应时,不会返回网页内容。”
在这些返回304的页面中大部分是旧时的内容页,这些返回304正常,可我还发现几个我每天更新的栏目页也在其中。这怎么解决了
修改head响应的Last-Modify的值,可避免304
###如果这些页面不是经常更新,并且304占的比例不是非常大的,可以不用管他的。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/18000.html