[导读]:搜索引擎分词技术与链接数量分析 我这边已经成功做出了一款比较落后的搜索引擎,但是遇到俩个非常棘手的问题。 第一,搜索引擎分词,这些词典有没有成品的中国汉字具体...
搜索引擎分词技术与链接数量分析
我这边已经成功做出了一款比较落后的搜索引擎,但是遇到俩个非常棘手的问题。
第一,搜索引擎分词,这些词典有没有成品的中国汉字具体数量统计的工具,求推荐个。
例如:字典根据,词典根据,整站源码带数据的程序。
————————分割线————————
第二,链接数量分析,这个技术是搜索引擎怎么实现的?
第三,搜狗知立方与百度框计算内容相关度,是不是根据百科来计算的?
第四,百度对用户需求度,拿问答平台来衡量的,那么搜狗又拿什么来衡量的?会不会是输入法。
求助这四个问题,感谢回答。
1、有专门免费的分词工具,你可以用下,但准确性肯定不如百度的,毕竟人家分词技术与数据已经沉淀了那么多年,已经很成熟了,你只能是根据初步简单的分词工具来慢慢结合数据做改进。
2、超链接数量,你可以使用下百度站长的抓取工具来抓取一个网页,成功后,查看抓取的网页状态,你就会发现它其实就是目标网页的源代码,源代码中包含多少个超链接,超链接文本,图片链接基本就很清晰了。
3、百度框计算我认为是基于两个重点来得出的结果,其一当然是达到一定搜索量,其二是某搜索词与搜索框搜索词被搜索的结果页面都包含了同一网页或相同相关的网页,就可以认为是相关词,相关网页。重点是这两个,至于是否还有其他因素暂不知晓,但实现这两个重点,相信就可以实现相关度。
4、抱歉,基本不用搜狗。
站内搜索还是比较好做的,第一代搜索引擎使用布尔匹配就够了。
- 中文的分词、语义分析,百度都不尽如意,先从简单的开始,以后再慢慢完善。
###搜索引擎不是一个人能做的。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/24345.html