首页 > 问答 > 如何可发现蜘蛛从什么渠道抓取到某一个错误链接?

如何可发现蜘蛛从什么渠道抓取到某一个错误链接?

[导读]:看下图,里面标注的两个链接不存在于网站上,整个网站就一百来个页面,比较好控制和研究。 但百度仅收录的5个页面里,有2个是不存在与网站上的URL。 那么有哪些方式可以...

看下图,里面标注的两个链接不存在于网站上,整个网站就一百来个页面,比较好控制和研究。
但百度仅收录的5个页面里,有2个是不存在与网站上的URL。
那么有哪些方式可以发现,蜘蛛从什么渠道抓取到某一个错误链接?

这是很多童鞋常见的困恼。



百度蜘蛛也是程序员写出来的,总是有一个抓取规则的,
他也许抓取页面时有两个选择,一是链接指引,二是顺序规则

你的页面
www.seowhy.com/6_80_zh.html
www.seowhy.com/6_81_zh.html
唯独没有 6_82_ ,如果是链接指引那就是说当时你有发布这个页面,又删除了,所以收录到了。
否则就是 百度蜘蛛是以数字顺序来抓的。。。
www.seowhy.com/6_83_zh.html
www.seowhy.com/6_84_zh.html

###

学习下,坐等大神的真确解答以及证明

###

这个表示不懂,来学习,,。。

###

我个人理解是:当那个网页显示异常的时候,正好百度他老人家路过,所以看到的结果是那样的。途径可能是用户的点击和通过外链的导入。纯属个人理解。

###

这个估计是需要从网站日志那里才能看得到吧!

###

楼上分析的很有道理。
现在是一不小心,让蜘蛛跑了进来,找到了这个页面,seowhy权重高,又很快收录了。
现在要找蜘蛛到底是从哪个地方跑进来的,真有点难度。
对很多网站来说,既然收录了,为了不浪费,要么301,要么可以重新做个有用点的页面。

###

去服务器看下网站日志,Ctrl+F,如果能搜到,问题就解决了;
如果搜不到,解决方法见楼上各位。O(∩_∩)O

###

上面说的好凌乱......蜘蛛抓取不存在的链接,只要找到这个链接的来源页面就行了。最直接的办法就是把整站所有页面抓一遍,找出html中存在这些url的页面。

刚抓了下,fag.seowhy.com下的确不存在这些链接。所以可以推断出蜘蛛并不是从fag.seowhy.com下抓到这个页面,是从seowhy.com来的,既然收录的是新的url格式,也表明服务器做301是采用.htaccess正则替换的,不是url对,否则这个页面压根就打不开。

前面说到抓取整站页面,考虑seowhy.com页面数量实在庞大,需要限定抓取范围。具体做法:
1.通过日志锁定抓取这个不存在页面的蜘蛛IP
2.调取从做301那天到24日的日志,导出该IP在抓到不存在url之前访问的页面
3.抽查导出页面html是否存在不存在url的链接,如没找到,就扩大抽取范围(比如抽取前100页面没找到,那就抽取前1000个试下)

ps:其实不一定能找到,spider抓取是通过历史建立的访问url列表,并不是通过从一个页面的链接跳到另一个页面

估计应该是其它用户在回帖或发布内容的时候加了这个不存在url的链接,因为是服务器是正则匹配的url,所以能够被百度正常访问抓取,就被收录了

欢迎大神指点。。。。。

###

我的好多页面都是不存在的,但是确实收录了,有快照,百度蜘蛛是不是智能了,只要存在的URL(仅限于数据库)而前台不显示,用户访问不到,也是可以的爬行和抓取的。



###

我一度怀疑:
百度会根据url特征对未抓取的url进行猜测:
例如我有一个页面url为news-7 删除后没去做协议404.且删除前未被百度发现(一些就删除、站内的爬行频率并不高)。
但是在第二天我发布了news-8的时候,他爬取news-8后爬取了news-7的内容。可以保证,news-7并无页面入口。

苦于这种测试做了对站内无意义,没人支持。所以没有找到证据。

###

1、程序本身问题。常见于一些翻页的首页,这个是比较普遍的,页面是列表页。这个之前用过采集工具,不知道百度如果发现一些有规律的参数的话,会不会为了节省时间,来进行一个默认的批量下载。

2、链接上游。抓取的话,一定要先访问,访问的话就会有以个上游。这个可以通过百度统计或者是谷歌分析的上下游来进行下判断。这个主要是看用户能访问到不,不一定能确定页面。毕竟蜘蛛的访问能力要远强于普通用户的,可以作为一个参考。

3、站长工具的外部链接。站长工具的外链里面看看是不是能够访问到这条链接的外部链接,建议用谷歌的,百度的目前还是非常初级的。

###

应该和快照有关系,投诉下,把网站快照删除,然后做好404界面,等待更新。

###

有这个页面而不是404,回答中有这个链接入口,也就能抓取到这个页面了。就是不知道之前域名301的页面,提交给百度的时候有没有这个链接。

###

有可能是按照URL新旧对比规则,或者正则改版规则习惯来抓取;
1.分析日志;2.收录之后还会再抓取,@刘振兴 加跟踪代码。

###

我想问下夫唯老师,现在该站的百度索引量是多少?或许是百度按照URL一定的规则来进行抓取的.我刚才看到www.seowhy.com/6_82_zh.html也是被百度收录了.能否让程序工程师在这个页面上做一个跟踪代码,看百度是怎么过来的.

本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/19823.html