[导读]:看到这个问题,首先根据谷歌指南与经验得到: 1. DoS 防护系统(或内容管理系统) 确认网站近期是否做了什么新功能,一般做防采集或其他功能经常是阻止几分钟时间访问几千...
看到这个问题,首先根据谷歌指南与经验得到:
1. DoS 防护系统(或内容管理系统)
确认网站近期是否做了什么新功能,一般做防采集或其他功能经常是阻止几分钟时间访问几千个网页。
这个情况多出现在公司有多部门,但没有沟通好。
2. 防火墙
这个一般是托管商通常配置为自动阻止级别过高的服务器请求。爬虫1min分钟访问1-2百个页面是很正常的。
3. 服务器被挂马
服务器近期是否会经常出现访问不稳定,包括用户访问。如果没有,则可以排除。
这个情况大多数都是服务器不稳定造成,看问题是否命中这三点。
可以通过以下方法确定判断依据:
1. google 抓取方式
谷歌管理员工具里,看是否可以正常抓取。如果可以,就大致认为googlebot可以正常访问网站。
更进一步,说明是服务器不稳定等因素。
2. google抓取统计信息
谷歌管理员工具里,抓取状态(下载页面所需的时间),查看是否有不稳定情况。如果是这1-2天内,则不会显示。
3. 网站日志
对比查看正常与异常的日志记录,查看的是访问量比较大的单个爬虫。
如果正常的记录是每秒访问2-3个页面,异常情况会出现断开几秒钟、几分钟或更长一点。这个根据服务器不稳地情况而定。
要解决此类问题,必须找出网站上阻止 Googlebot 的相关基础架构部分,然后取消阻止。
如果问题已经解决,管理员工具更新需要3天-7天左右。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/22638.html