首页 > 问答 > 13年10月21日,百度站长平台《搜索引擎索引系统概述》讨论专题

13年10月21日,百度站长平台《搜索引擎索引系统概述》讨论专题

[导读]:原文网址:http://zhanzhang.baidu.com/wiki/219 作者:百度站长平台lee 发布时间:2013年10月21日 完整内容: 众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检...

原文网址:http://zhanzhang.baidu.com/wiki/219
作者:百度站长平台lee
发布时间:2013年10月21日
完整内容:
众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。过去几周给大家介绍了抓取相关的简要过程。今天简要介绍一下索引系统,以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?

如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:



不是很理解下面流程图的原理,有那个高手能解读一下吗》

本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/20433.html