Baiduspdier蜘蛛抓取系统的工作原理

  • 877 views
  • 阅读模式

互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:BaiduspdierGooglebotSogou Web Spider等。

Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

下图为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。Baiduspdier蜘蛛抓取系统的工作原理

 

weinxin
我的微信
我的微信
这是我的微信扫一扫
  • 本文由 发表于 2014年12月24日 09:37:25
  • 转载请务必保留本文链接:https://www.uhua0318.com/zhizhuyuanli.html
IT行业新闻

seo发展趋势

seo目前乱象:seo行业入门很低,会电脑就行,这就造成了行业从业人员技术参差不齐。 一、技术好的(至少3年以上SEO经验):接单做排名基本都是比较有保障的,毕竟技术和经验在那摆着呢,但是收费价格相对...
SEO优化

SEO优化怎么做?分享6个小技巧

1. SEO优化技巧之——TDK SEO优化技巧中,TDK书写的是否合理,是影响网站排名的一项重要因素,在优化Seo关键词的时候,一定要注意关键词的相关性。现在搜索引擎已经越来越严格,欺骗式关键词已经...
SEO优化

域名对SEO到底有什么影响?

域名选择在SEO中其实是非常重要的,一个好的域名可以在SEO中起到事半功倍的效果,那么我们做SEO优化应该如何选域名呢? 一般我们选择域名无外乎两种方式,一种是购买老域名,一种是注册新域名; 为什么要...
SEO优化

如何选择合适的网站空间/服务器?

购买空间的时候,最好确保你的空间具备以下功能: 第一:空间的稳定性 假如空间老是打不开,或是打开了马上就出现发展空间错误,这样对用户管理来说是非常不友好的,用户自己以后可以看到中国这样企业网站就不会去...
评论  0  访客  0

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定