百度蜘蛛抓取规律分析
最近一直在研究百度蜘蛛抓取规律,刚开始的时候,真的是杂乱无章,看不出什么头绪,但最近找到了一个好工具,分析的很好。
网站从8月末到11月末一直没有更新,百度单日抓取量由2800多降低到500多,但不管抓取量多大,一直有相同的规律。
先公布下我的网站的百度蜘蛛三个月的抓取规律:
1、百度蜘蛛ip 99%都是123.125.71段[从12-117,105个] 、220.181.108段[从75-187,102个],也就是加在一起207个蜘蛛ip,观察三个月的数据,每天这些蜘蛛都会来。见图一
问题:除了以上这些蜘蛛ip之外,每天都有两三个180.76.5段的蜘蛛ip,这个ip段蜘蛛是做什么的?你们的Iss日志的蜘蛛ip数是多少?
2、这一点是比较稀奇的,网站停留三个月没有更新,百度蜘蛛抓取量由2000多降低到500多,但稀奇的是蜘蛛抓取最大间隔值都不超过7分钟。
问题:抓取间隔是否和网站权重有关系,为什么这么凑巧最大间隔从不超过7分钟?
3、最近半个月网站开始更新,很多指数都恢复到三个月之前,每个月抓取量也将近2000,通过对最近几天蜘蛛的观察,凡是当天发布的文章,百度蜘蛛最少抓取两次,并且这两次抓取间隔为四个小时。
问题:百度针对一个页面为什么抓取两次,其实第一次抓取的时候已经显示收录了,为什么四个小时候再抓取一次?
我是用正则匹配日志中的百度蜘蛛,比题主收集的数据多了状态码,百度蜘蛛种类,访问URL。
1. 百度站长工具压力显示新东家网站子域名每天抓取2000次,但编辑后台统计总共才3000个页面,实际日志查到的为几百条百度蜘蛛记录,看样子可以新增1000篇文章,让百度多爬点。ip地址都差不多,段[从12-117],段[从75-187],段[从21-194],另外还有2个,假的。段亦有2个。
2. 这与权重没什么关系罢,同样从0:05-0:27时间内百度蜘蛛在子域名爬了69次,但之后过了15分钟才继续爬。每日百度来的流量大约为几百个UV。
3. 昨日已经回答过,一般大型网站百度蜘蛛重复抓取率较低,而中小型网站重复抓取率较高,因此看到百度蜘蛛爬得很勤,不必太高兴,只能说明百度记不住这个网站,需要多爬几次以免忘记。
建议你先确定好蜘蛛是百度的还是其他工具仿得!
###看蜘蛛相当于把脉,最关键的还是要能根治。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/21451.html