最近百度官方提出的一个概念,让我印象深刻。
叫:有效收录。
也看到一些同学发的讨论:
关于百度对每个网站的资源配额问题
参加2014百度站长平台广州沙龙有感
三木也发起了一个话题:
什么是有效收录,如何辨别收录的内容是否有效?
其实,我这几天在思考的问题主要是,无效收录该不该屏蔽?还是越多越好?
我比较偏向于,无效收录不用屏蔽,收录不管有效无效,越多越好。(但如果每个文章都是高质量的收录,那显然是最佳的。)
大家的观点呢?
这个问题不好弄清楚啊,牵涉到的因素太多,比如当时有效以后会不会变成无效收录?当时无效以后会不会变成有效收录?需要先把这个弄清楚,如果这个弄不清楚,即使你知道了什么是无效收录你敢屏蔽掉吗?如果他会变成有效收录,你屏蔽掉,他一辈子都变不成了。
###个人观点
有效收录的辨认方法1:搜索该页面完全匹配标题时,能否找到,即是否参与排名。
有效收录的辨认方法2:搜索该页面url时,百度快照日期中是否带0,带0即参与排名。(如2014-09-08和2014-9-8的区别,该方法针对部分网站很有效,我已经将此作为网站权重高低的首要标准,但不是100%准确)
网站有效收录比例:Site域名,查看百度快照日期中带0的数量占的比例。
我认为要做的工作,是将无效收录变成有效收录。
有效索引比有效收录重要。有效索引是蜘蛛通过links建立的某种有价值关联。当没有价值的时候,有效索引量会减少。切实增加有效索引量是增强页面排名机会的一个方法。
###有些时候,我们应该换个角度去思考问题,去为用户考虑,如果这一篇文章对于用户来说是有价值的,那么收不收录又有什么关系呢?百度自身是有一套算法去计算网页质量度,达到收录的标准后,自然会被收录,那些没有被收录的没有必要去屏蔽,因为那些没有被收录的很可能被蜘蛛抓取过,放到索引库,只是没有建立快照而已。对于没有收录的内容,应该去从用户的需求出发,充分的满足用户的需求,我想收录也不是什么难事。
###如果真 有 “无效”之说
那搜索引擎为什么还将这些所谓 “无效”文章的给收录了?
证明搜索引擎也无法通过文章来判断是否是无效的。
我们在做文章的时候无法就是注重2个点。
1、是否扣网站主题,既相关性,主题用户所需求的
2、能否给网站带来有用的流量,既主题长尾词。
如何定义有效收录?
1、如果从流量判断,任何一个标题的文章都可以演变出多个关键词,只要够牛,天下没有不能带来搜索流量的文章。所以有没有流量和是不是有效收录之间没关联。
2、但是来的流量是否和网站主题相关?比如一个做电商的网站,结果有排名 有流量的页面都是一些色词,比如b5m。
所以我最后觉得 如果真要定义 有效收录和无效收录的话 唯一的标准就是:收录的页面是否与网站主题有相关性。
无效收录该不该屏蔽?
如果建立在我定义的无效收录的标准上,如果一个网站来的流量大多数都和网站主题无关的页面,占据了一定比例后,那么就很危险了,你的网站主题是A 但是搜索引擎监控来的流量词语都主题B的词语 那么你的网站主题到底是什么,你的网站用户群体到底是哪些?所以这些页面主题如果差距特别远那么可以适当被屏蔽。
最后我觉得:其实说来说去 百度就是在说 网站页面最好和网站主题相关,多一些相关的文章自然对网站有好处。相关的文章少自然对网站有坏处。现在只是换了个说法而已。
还有个问题吧,现在的无效收录不代表以后也是无效收录吧。反之也是个问题
###这个问题有点咬文嚼字,看了大家的回答,瞬间被搞糊涂了,先来做个文字题。讨论下无效收录的理解。
第一种:可以被收录,但是是没有效果的
第二种:本身定义不可以被收录,(j具体例子可以参考百度搜索引擎质量白皮书,提到的质量差或者无质量的页面,不予以展现,或者减少展现几率)
要知道上面两种同属于无效收录的解释,但是因为参考谁的不同,导致理解不一样,

###
百度优先建重要库的原则这是百度站长学院上面说的。###
Baiduspider抓了多少页面并不是最重要的,重要的是有多少页面被建索引库,即我们常说的“建库”。众所周知,搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足,这也就解释了为什么有些网站的收录量超高流量却一直不理想。
那么,哪些网页可以进入优质索引库呢。其实总的原则就是一个:对用户的价值。包括却不仅于:
1,有时效性且有价值的页面:在这里,时效性和价值是并列关系,缺一不可。有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的.
2,内容优质的专题页面:专题页面的内容不一定完全是原创的,即可以很好地把各方内容整合在一起,或者增加一些新鲜的内容,比如观点和评论,给用户更丰富全面的内容。
3,高价值原创内容页面:百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。千万不要再问我们伪原创是不是原创。
4,重要个人页面:这里仅举一个例子,科比在新浪微博开户了,需要他不经常更新,但对于百度来说,它仍然是一个极重要的页面。
还是要区分什么是有效收录和无效收录,把无效收录转变为有效收录也是要重复花费时间的,彻底的做法明确那些是有效收录,只朝着有效收录的方向走
###前期靠质后期靠量
哈哈
老师,我咋感觉我们俩越来越默契了,共同关注的点总是一样。
其实我一直以来,和你的观点是一样的,也认为无效收录越多越好,所以我把一个网站的文章分为流量层、转化层、营养层,其中的营养层就是说的无效收录,这些收录可以提高整体网站的收录数量,并且还可以给别的页面传递权重。
可这次,百度这种说法,以及上次说的资源配额问题,让我有点乱了,到底无效收录该不该存在?
我想这是一个很关键的课题,这个如果搞不明白,那会牵涉太多错误的思想和行动。
但有一点,我感觉百度现在提出这个,或许也和百度资源的优化有关系,对于百度来讲,他也是一个盈利机构,在提高用户体验的基础上,还想节省成本,将更多的资源利用在优质的有效收录上,减少对无效收录的抓取和分析。
我现在网站收录15万,流量4000 关键词2000个,勉强50篇出一个关键词
按照每天百度筛选以及搜索频率勉强算是4000个页面有流量
那么我的有效收录就是4000个
我每天更新100篇 每天增加2个关键词
从流量在每天增加来推算一下 我的有效收录再增加
我认为通过这4000个所谓的有效收录可以慢慢带动我整站的权重分
随着权重分增加,那么以后肯定会有无效收录变成有效收录
至于屏蔽如何屏蔽? 赞同楼主不管有效无效 越多越好 终极目标就是所有无效收录变成有效收录哈哈
理了下思路:
我认为,这次“有效收录”的说法是,针对过往百度几次算法的总结说明。
包括:
1.重复内容(低质量)
2.利用与站点无关的热词引流
3.制作低质量静态搜索结果页或Tag标签页
4.不相关静态搜索结果页
以上几点的共同特点是,可能被百度收录了、但没有解决用户问题、或者网站主题内容不符等。
网站内容应该以建设“核心页面”为主:
比如,
b2c网站,应该以提供产品购买等信息服务为核心;
视频网站,以提供在线视频观看浏览为核心;
资源下载站,以提供资源在线下载为主;
seo网站,以提供seo相关知识为核心。
(欢迎大家补充,顺便思考下自己网站的“核心”)
一句话辨别是否是有效收录:那你需要知道,你的目标用户需要哪些内容?
如何处理无效收录:
无效收录的内容,会大大弱化网站主题想关性,如果找出来,可以直接屏蔽之
1.与网站主题完全不相关的内容,直接屏蔽蜘蛛收录抓去
2.与网站主题相关,但非重点页面,可以使用Nofollow,控制权重流向,节省蜘蛛资源。
回答完毕
搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足。(摘自百度)个人感觉:有效收录/总收录的比值是衡量一个网站分配到重要索引库还是普通索引库或低质索引库的重要原因之一。无效收录应该是越少越好的。
当然了,都是百度官方说的,是不是真像他说的那样,WHO KNOWS呢?
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/31636.html