一个来自百度的怪异现象
http://pan.baidu.com/robots.txt
User-agent: Baiduspider
Allow: /
User-agent: Baiduspider-image
Allow: /
User-agent: Baiduspider-video
Allow: /
User-agent: Baiduspider-news
Allow: /
User-agent: Googlebot
Allow: /
User-agent: MSNBot
Allow: /
User-agent: YoudaoBot
Allow: /
User-agent: Sogou web spider
Allow: /
User-agent: Sogou inst spider
Allow: /
User-agent: Sogou spider2
Allow: /
User-agent: Sogou blog
Allow: /
User-agent: Sogou News Spider
Allow: /
User-agent: Sogou Orion spider
Allow: /
User-agent: JikeSpider
Allow: /
User-agent: Sosospider
Allow: /
User-agent: *
Disallow: /
上面写了允许蜘蛛访问,但却在最后两行什么不允许所有蜘蛛。讨论开始!
###
这个写法没有错,是标准写法,Robots是按照先后顺序读取的,刚开始先是允许百度蜘蛛、谷歌蜘蛛、搜狗蜘蛛、即可蜘蛛、有道蜘蛛、搜搜技术、MSN蜘蛛抓取网站内容,最后一个不允许是不允许上面蜘蛛之外的蜘蛛程序抓取。
从目前搜索引擎市场上来看,说直接点,就是禁止360蜘蛛抓取,但百度要是直接写禁止360蜘蛛抓取可能是影响不好,干脆来了迂回。
如上!
有按顺序的说法!
楼主果然强大,这个你都发现。这种写法也是第一次见,猜想:
百度网盘据了解上传进去的文件是不允许搜索引擎收录的,只有你分享出链接地址,而且搜索引擎也抓取了,才会收录。
估计这个Robots.txt 大概是这个意思。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/22541.html