通过日志来看。有几个栏目存在抓取大幅下降,爬虫抓取平均时间增长的趋势,想跟大家讨论一下,关于爬虫抓取量下降的原因。
我自己先说下自己的理解吧。
1 网页加载慢(自身因素,相对于服务器)。
2 服务器抽风。
3 内容质量下降。
4 导入链接减少。
5 导出链接过多。
欢迎大家指导,在此谢过。
几位前辈都说过了关于压力反馈这个工具,现在简单的截个图把百度蜘蛛抓取量的趋势和压力反馈趋势放在下面,各位前辈看下。抓取下降,爬虫时间增长,这种情况体现了爬虫因为抓取中遇到困难导致抓取成功数量减少。
内容质量下降。 导入链接减少。导出链接过多。这三点我觉得是没有直接关系的。
遇到此类问题,首先要先找到出问题的时间,是长期如此,还是最近才这样,明确一个模糊的开始时间。
其次开始时间定出来之后,要联系那个时间段网站运营的一些情况,比如:网站改版,更换服务器(主机)、域名解析、黑客入侵等。
再者要找到核心问题所在,到底为什么给爬虫制造这样的压力,然后采取方法解除这个压力。
另外,我推荐你参照下百度站长工具--网站分析---压力反馈,这个工具里的数据有利于找到出问题的时间,如果你同时还验证过谷歌站长等,可以通过这些工具查看下更多信息。
【愿上帝祝福你】
这个值是正常的无需担心
###传送门:http://ask.seowhy.com/question/1545
来点题外话
- 蜘蛛分两类:专享蜘蛛和共享蜘蛛,对于大型网站,绝大大部分来访蜘蛛都是专项蜘蛛,就是专门抓这个域名下的内容。
- 由于带宽限制,蜘蛛每日抓取页面数量有限,会根据网站整体质量,定期观察,对页面更新频繁、优先级高的类别页面重点抓取,来提高抓取效率,根据服务器情况,调整抓取时间和抓取速度,保证网站正常运行。
- 抓取策略:宽度优先,限制深度;重访抓取;暗网抓取
综上,回答问题
1.影响蜘蛛抓取效率的因素有哪些?(除了服务器压力、页面大小)
URL规划:URL结构;URL优先级;URL重复;无效URL
内容:内容同质化;同一页面对应多个URL;页面是次要页面,但URL优先级很高
页面:页面链接数量大;页面加载时间长(好多因素);代码繁杂;框架;搜索框;蜘蛛陷阱(比如一堆筛选条件);
服务器:速度慢;掉线;
其他:cookie;Robots写错了;程序插件;其他人补充~~~
2.让蜘蛛含恨离开网站的原因有哪些?
内容:内容重复;页面缺少更新机制;页面更新超级缓慢;页面加载速度超级慢;页面打不开
服务器:防火墙;防采集;限制IP;宕机;
其他:其他蜘蛛抓取量大,导致带宽不够用了;网站降权了;今天抓取数量够了,明天再说;URL优先级太低;其他人补充~~
导致百度抓取少的原因:
网站服务器承载量不够;
网站内部链接数量(包括次导航、权重页);
网站外部链接相关性和广泛性;
首先我们来套一个公式: 单页抓取停留时间=停留时间*3600/总抓取量
单页抓取停留时间影响因素有两个:总停留时间与总抓取量。
现在总抓取量减少,导致单页抓取停留时间增长,这么说明,蜘蛛的总停留时间是相对稳定的,我说的没错吧?
那么,我们就可以得出一个结论:在总停留时间是相对稳定的情况下,网站的总抓取量下降,原因大致就可以得出三个:
一是服务器响应时间;
二是页面的层次过深;
三是内容的质量;
具体的这个栏目情况,还需要结合你的具体日志分析,如:栏目的信息更新量,信息收录量,进而计算出来的收录率,来确定是不是内容的质量问题;
百度不是有个抓取压力反馈工具么?你可以对比看看。压力反馈工具是根据服务器承受能力,网站质量,网站更新等综合因素来进行调整。所以说蜘蛛抓取量下降问题也应该跟这些因素有关系。
###个人认为蜘蛛爬行的原因:
1.外链的广泛度和质量度:影响蜘蛛爬行的深度和时长
2. 内链的友好度:影响蜘蛛爬行的速度和深度
3. 导航的分类精细:影响爬行深度
4. 文章的更新速度:影响爬行的量度(是否常来)
5. 服务器响应速度:影响很多。。。这个深受其害。。。这个是个坑,
爬虫抓取下降,与服务器的稳定、页面质量、用户体验等这些因素有关系。
你要是确定没有问题,可以再观察几天,是否爬虫的抓取力度会恢复。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/19069.html