百度索引量是如何出来的

  • 661 views
  • 阅读模式

众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。上一章我们主要介绍了部分抓取存储环节中的内容,此章简要介绍一下索引系统。

在以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?

如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:
百度索引量是如何出来的

 1,页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:titlekeywordscontentlinkanchor、评论、其他非重要区域等等;
        2,分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;
        3,之前的准备工作完成后,接下来即是建立倒排索引,形成{termàdoc},下图即是索引系统中的倒排索引过程。

百度索引量是如何出来的
倒排索引是搜索引擎实现毫秒级检索非常重要的一个环节,下面我们要重要介绍一下索引系统建立倒排索引的重要过程——入库写库。

倒排索引的重要过程——入库写库

索引系统在建立倒排索引的最后还需要有一个入库写库的过程,而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部,并且对数据进行压缩,这涉及到的过于技术化在此就不多提了。在此简要给大家介绍一下索引之后的检索系统。

检索系统主要包含了五个部分,如下图所示:
 百度索引量是如何出来的

1Query串切词分词即将用户的查询词进行分词,对之后的查询做准备,以“10号线地铁故障”为例,可能的分词如下(同义词问题暂时略过):
10  0x123abc
   0x13445d
        线   0x234d
        地铁 0x145cf
        故障 0x354df

2)查出含每个term的文档集合,即找出待选集合,如下:
         0x123abc   1  2 3  4  7  9..
         0x13445d   2  5 8  9  10  11……
          ……
          ……

3)求交,上述求交,文档2和文档9可能是我们需要找的,整个求交过程实际上关系着整个系统的性能,这里面包含了使用缓存等等手段进行性能优化;

4)各种过滤,举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的;

5)最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等

weinxin
我的微信
我的微信
这是我的微信扫一扫
  • 本文由 发表于 2014年12月24日 09:54:28
  • 转载请务必保留本文链接:https://www.uhua0318.com/baidusuoyin.html
  • 百度索引量
IT行业新闻

seo发展趋势

seo目前乱象:seo行业入门很低,会电脑就行,这就造成了行业从业人员技术参差不齐。 一、技术好的(至少3年以上SEO经验):接单做排名基本都是比较有保障的,毕竟技术和经验在那摆着呢,但是收费价格相对...
SEO优化

SEO优化怎么做?分享6个小技巧

1. SEO优化技巧之——TDK SEO优化技巧中,TDK书写的是否合理,是影响网站排名的一项重要因素,在优化Seo关键词的时候,一定要注意关键词的相关性。现在搜索引擎已经越来越严格,欺骗式关键词已经...
SEO优化

域名对SEO到底有什么影响?

域名选择在SEO中其实是非常重要的,一个好的域名可以在SEO中起到事半功倍的效果,那么我们做SEO优化应该如何选域名呢? 一般我们选择域名无外乎两种方式,一种是购买老域名,一种是注册新域名; 为什么要...
SEO优化

如何选择合适的网站空间/服务器?

购买空间的时候,最好确保你的空间具备以下功能: 第一:空间的稳定性 假如空间老是打不开,或是打开了马上就出现发展空间错误,这样对用户管理来说是非常不友好的,用户自己以后可以看到中国这样企业网站就不会去...
评论  0  访客  0

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定