搜索引擎爬虫和页面更新战略
2017-05-17 发布人:
搜索引擎爬虫和页面更新战略
互联网的动态性是其显著特征,随时都有新出现的页面,页面的内容被更改或许正本存在的页面被删去。关于爬虫来说,并非将页面抓取到本地就算完成任务,也要表现出互联网的这种动态性。本地下载的页面可被看做是互联页面面的“镜像”,爬虫要尽也许保证其一致性。能够假定一种状况:某个页面已被删去或许内容作出严峻改变,而查找引擎对此惘然无知,依然按其旧有内容排序,将其作为查找成果提供给用户,其用户体会之差劲显而易见。所以,关于现已抓取过的页面,爬虫还要担任坚持其内容和互联页面面内容的同步,这取决于爬虫所选用的页面更新战略。
1】 前史参阅战略
前史参阅战略时最直观的一种更新战略,它建立于如下假定之上;曩昔频频更新的页面,那么将来也会频频更新。所以,为了预估某个页面何时进行更新,能够通过参阅其前史更新状况来做出决议。
这种办法通常使用泊松进程来对页面的改变进行建模,依据每个页面曩昔的改变状况,使用模型猜测将来何时内容会再次发生改变,以此来辅导爬虫的抓取进程。可是不一样办法偏重不尽一样,比方有的研讨将一个页面划分红不一样的区域,抓取战略应当忽略掉广告栏或许导航栏这种不重要区域的频频改变,而会集在主题内容的改变勘探和建模上。
2】 用户体会战略
一般来说,查找引擎用户提交查询后,有关的搜素成果也许不计其数,而用户没有耐性查看排在后面的查找成果,通常只查看前3页查找内容。用户体会战略即是使用查找引擎用户的这个特点来规划更新战略。
这种更新战略以用户体会为核心,即便本地查找的页面内容是过期的,可是如果不影响用户体会,那么晚些更新这些过期页面也未尝不可。所以判别一个页面何时更新为好,取决于这个页面的内容改变所带来查找质量的改变(通常选用查找成果排行的改变来衡量),影响越大的页面,则应当越快更新。
用户体会战略保存页面的多个前史版别,并依据曩昔每次内容改变对查找质量的影响,得出一个平均值,以此作为判别爬虫重抓该页面时机的参阅依据,关于影响越凶猛的页面,则越优先调度从头抓取。
3】 聚类抽样战略
上面介绍的两种页面更新战略严峻依靠页面的前史更新信息,由于这是能够进行后续核算的基础。可是在实际中,为每个页面保存其前史信息,查找体系会很多添加额外负担。从别的一个角度考虑,如果是初次抓取到的页面,由于没有前史信息,所以也就无法按照这两种思路去预估其更新周期。聚类抽样战略即时为了解决上述缺陷而提出的。
聚类抽样战略以为:页面具有一些特点,依据这些特点能够猜测其更新周期,具有类似特点的页面,其更新周期也是类似的。于是,能够依据这些特点将页面归类,同一种类内的页面具有一样的更新频率。为了核算某个种类的更新周期,只需对种类内页面进行采样,以这些被采样页面的更新周期作为种类内一切别的页面的更新周期。与之前叙说的两种办法相比较,这种战略一方面无须为每个页面保存前史信息;另一方面,关于新页面,即便没有前史信息,也能够依据其所属种类来对其进行更新。
聚类抽样战略,首要依据页面所表现出的特征,将其聚类成不一样的种类,每个种类内的页面具有类似的更新周期。从种类中抽取一部分最优代表性的页面(一般抽取最靠近类基地的那些页面),对这些页面核算其更新周期,那么这个更新周期适用于种类内的一切页面,以后即可依据页面所述种类来决议其更新频率。
在Tan等人的研讨中,将能够表现页面更新周期的特点特征划分为两大类:静态特征和动态特征。静态特征包含:页面的内容、图像数量、页面巨细、连接深度、PageRank值等十几种;而动态特征则表现了静态特征跟着时刻的改变状况,比方图像数量的改变状况、入链出链的改变状况等。依据这两类特征,即可对页面进行聚类。
但不一样算法再细节处有区别,比方有些研讨直接省掉聚类这个过程,而是以网站作为聚类单位,即假定归于同一个网站的页面具有一样的更新周期,对网站内页面进行抽样,核算其更新频率,以后网站内一切页面以这个更新周期为准。这个假定虽显粗糙,由于很明显同一网站内页面更新频率区别很大,可是能够省掉聚类这个过程,在核算功率方面会更可行些。
有关试验标明,聚类抽样战略效果好于前述两种更新战略,可是对以亿计的页面进行聚类,其难度也是非常巨大的。