首页 > 问答 > 关于蜘蛛抓取,为什么只能爬取最新几天的文章?

关于蜘蛛抓取,为什么只能爬取最新几天的文章?

[导读]:求教网站是一个新闻类网站,为什么网站地图爬的时候只能爬到最新几天的文章,前面的文章只能爬到一两篇,这个是怎么回事。其实每天更新的文章少说也有几百篇,为什么从...

求教网站是一个新闻类网站,为什么网站地图爬的时候只能爬到最新几天的文章,前面的文章只能爬到一两篇,这个是怎么回事。其实每天更新的文章少说也有几百篇,为什么从第二天开始,就减少,超过一周文章就开始百度地图爬不到了

时效性、阅读量、原创性、文章的价值都会导致蜘蛛只抓新文章。

每天几百篇的文章怪吓人的,我很怀疑文章的质量,有人看么?

百度对每个网站都有抓取额度,几百篇的更新会导致分配不均,如果质量不行,抓取额度可能会从1万减少到10。网络垃圾够多的了,百度只想花精力找出那7%的优质页面。如果不是知名新闻站,垃圾页面抓取判定一次后就剔除了。

PS:也许和你的网站无关。

百度不反对采集后进行加工产出搜索引擎和用户都喜欢的高质量文章,但以“周期性更新大量文章”为目的SEOer势必将心思花在采集和伪原创上。

然而,采集的文章会被百度识别并予以适当调整;工具生成的文章由于不具备社会共识价值,会被百度重点识别打击;伪原创?精力、专业性和编撰水平的不足也会导致二次编辑的文章不具备独特的价值。

追求数量的文章一定不是“搜索引擎和用户都喜欢”的,这会导致无人驻足、收录时有时无……百度认为这样的文章频道就是一个垃圾制造器,从而降低对网站的评价。同时,追求“周期性更新大量文章”的SEOer也没在网站重要页面上下功夫,此类网站的排名终有一天会全部消失。

###

有两点:
1.你网站本身页面与页面之间的链接不够好,比如:上一页/下一页,锚文本,最新文章,热门文章等,程序只是模拟搜索引擎去抓取的。
2.你用的Sitemap抓取工具功能限制。

本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/41089.html