这是正常抓取的情况,GET后面的地址是不带域名的:123.125.71.110 - - [23/Aug/2019:06:52:22 +0800] "GET /1149.html HTTP/1.1" 200 64256 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
个别网页可以正常访问,抓取却带了域名导致404:
220.181.108.106 - - [23/Aug/2019:05:14:02 +0800] "GET /www.whlihun.com/3724.html HTTP/1.1" 404 479 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
还有一个页面,出现了两只蜘蛛抓取完全不同的结果:
220.181.108.157 - - [23/Aug/2019:08:17:16 +0800] "GET /3075.html HTTP/1.1" 200 64687 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
220.181.108.159 - - [23/Aug/2019:03:48:59 +0800] "GET /www.whlihun.com/3075.html HTTP/1.1" 404 479 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
请问这到底是蜘蛛的问题,还是我自己的问题?
之前只知道发文章,最近才关注百度蜘蛛,所以突然发现这些问题,直接懵B了。
###给百度反馈一下
###应该是百度的问题
###改绝对地址试试
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/80753.html