首页 > 问答 > 如何精准查询究竟哪些页面被搜索引擎删除了?

如何精准查询究竟哪些页面被搜索引擎删除了?

[导读]:RT。 在一个 数据量足够庞大的 网站中,使用遍历记录的方法查询网站页面的收录情况几乎是不可能的。 由于收录删除有可能由很多原因引起,所以查清楚究竟哪些页面被删除了...

RT。
在一个数据量足够庞大的网站中,使用遍历记录的方法查询网站页面的收录情况几乎是不可能的。
由于收录删除有可能由很多原因引起,所以查清楚究竟哪些页面被删除了就十分重要了。
请问大家有什么好方法,能够精确的定位究竟哪些页面在上一次的更新中被删除了呢?
求赐教。

几百万的收录,对于每天掉的链接统计来讲,确实是一个问题,但还有一个问题是,既然有几百万的收录,即使掉了几十万的收录,也不会影响网站的大局,对于您想知道哪些URL被删除,来讲,也没有太大的意义。大致的了解一个删除的方向足以为今后的网推广做出明确的方向了。

百度的变化是十分快的,没准今天删除了的URL,在明天又会被重新收录,那么统计出了详细的删除URL到了第二天,又需要去统计,这无疑为您的工作添加了更多不必要的麻烦。几百万的收录,也不必在意几十万的数据变化了。即使减少了100万的收录,那又有何影响呢?如果减少再多,可能就是你网站的问题了。

###

查服务器日志可以看到每日百度蜘蛛爬过哪些 URL,这是能精确统计的。
百度收录必然包括在百度蜘蛛爬过的 URL 记录里。
可以算下收录与爬行 URL 比例。

###

一下子掉了几百万的收录数据,想通过相关软件获取被删除的页面,几乎不太可能。除非百度站长平台给出详细收录数据下载,否则很难获取你要的内容。

如果你的目的只是寻找被删除页面的 原因,建议可以用采样法:

1、按照时间段、文章类别分类,列出N个数据。
2、在N个数据中,每个数据抽取M个页面形成L集合
3、对L集合进行统计,每次更新,看看被删除的页面属于哪一个列别、哪一个时间段的

###

我比较赞同三木提到的抽样法来研究被删除页面的规律。
具体方法,参考三木所说,我觉得说得很好。

另外补充下:
从经验上去反推原因,列出收录之后被删除的可能性有哪些,然后结合各个原因来做抽样研究。要结合之前收录的数据和现在的日志分析。
一般被收录之后又被删除的可能性有如下这些:

  1. 内容质量太差,基本没实质内容;
  2. 内容与网络现存内容太多一致;
  3. 服务器问题,导致那些页面返回值不对;
  4. 同一个页面内容,存在多个URL,故部分重复的URL被删除,如论坛帖子经常就一贴多URL;
  5. 一些页面在存在的过程中被系统删除,或人为删除,如:论坛灌水帖子被批量删除;

最后,关于这个问题,我找了几个在操作大站SEO的大侠(赶集的、大众点评网的、慧聪的)交流了下,
他们也提到采用抽样法和日志分析,是比较好解决这个问题的办法,但必要条件是,得有之前的收录数据。
感谢交流过程大家提到的百度站长平台里的索引量分析,如下图:


###

按照个人观点,其实也是和三木老师的观点相同
百度为什么删除收录过的页面,可能会有个共同点,那就是集体或多个删除吧,也不排除个别现象。
以前我维护过的一个站,有个特点就是相同类的页面最容易删除收录,包括里面原创性内容页面。
其实我也没有研究过这个,只是留意过,也曾关注为什么百度收录之后删除。
仁者见仁智者见智吧,期待高手回复,共同探讨。

###

谈谈我的看法。之前在另外一个公司的时候,是一个收录只有几十万的网站,我们每个周都会统计蜘蛛爬行日志,当然并不是统计整个周的,而是统计当天前一天的日志。然后规整分类,每个栏目做成不同的表格。这样做的目的只有一个,就是统计、对比百度更新前后每个栏目被爬行的url的数量。虽然这并不代表收录,但是,一旦百度更新收录急剧下降,据此就能大致的判断,是哪个栏目的爬行数量减少,那么就可以重新审核下这个栏目。
不知道像你们这样的大网站,这样的方案可不可行。只是统计数量,对比数量。

###

对于数量级别大的确实很难,不过我也同意三木的抽样方法。但是对于大数量级别的如果数据波动不是很大而且每天变化很多似乎很难赞掌握。

我个人的话应该是比如今天产生的页面监控一段时间,明天产生的页面监控一段时间以此类推然后找出被删的 看看是否有类似的什么而造成收录后被删除,或者一些页面一直不收录的。这种需要大量的数据做基础来研究的是个比较漫长繁琐的过程哈。

###

对于百度来说是说不准的事 也许今天掉了明天就会恢复 也许以后就不会掉了
如果是收录与删不成正比 说明有问题
方法和老师们说的差不多 对比分析法 观察法
不过我觉得他删的话如果是大块的删,这样的话找出那块页面应该不难,然后对比其他正常页面分析不同点 这样就比较快了也比较省事

###

开发一个小工具或许也不错。按天或或按周导出数据。来分析。

###

你不需要了解都哪些页面被删除了。
你需要知道的是为什么有些页面被删除了。
然后下一步做的页面就完善一些导致被删除的原因。

###

谢邀,我比较同意@杨营 的观点,有时候确实说不准。

###

楼上大哥说的是比较正确的!赞一个,可以找程序员将蜘蛛日志根据时间区间用程序筛选url出来!

###

自己做两个表格,然后进行对比,结果就出来了。

###

要么是还没收录

本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/22328.html