Baiduspdier蜘蛛抓取系统的工作原理

  • 869 views
  • 阅读模式

互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:BaiduspdierGooglebotSogou Web Spider等。

Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

下图为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。Baiduspdier蜘蛛抓取系统的工作原理

 

weinxin
我的微信
这是我的微信扫一扫
年轻的老刘
  • 本文由 发表于 2014年12月24日 09:37:25
  • 转载请务必保留本文链接:http://www.uhua0318.com/zhizhuyuanli.html
SEO优化

衡水网站优化接单_10年以上操作经验

本博主2007年开始从事互联网相关工作,拥有丰富的网站建设、网站优化(SEO),网络推广、网站运营、团队管理经验。 擅长中小企业的互联网推广方案的制定,企业网站诊断,网站运营,产品设计,用户体验提升等...
网络推广

传统行业网络推广现状及趋势分析!

最近跟几个橡胶、丝网企业老总坐了坐,探讨了下企业在疫情过后,传统生产制造业互联网发展方向。 我总结了几个老板比较关注的问题: 1、招人难---太难了 别说网络推广技术人员,就算普通的网络销售都特别难招...
B2B网站运营

B2B平台信息发布技巧培训

免费信息(B2B)平台能给企业带来多少效益? 对于竞争大的行业,B2B平台还有做下去的必要吗? 如何利用好免费信息平台? 如何让员工发布的信息排名首页? 如何让首页的信息持久展示? B2B平台信息发布...

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定