天网增量搜集子系统的设计与实现.doc 立即下载
2024-09-05
约3.6万字
约55页
0
1.1MB
举报 版权申诉
预览加载中,请您耐心等待几秒...

天网增量搜集子系统的设计与实现.doc

天网增量搜集子系统的设计与实现.doc

预览

免费试读已结束,剩余 50 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

北京大学网络实验室硕士学位论文




硕士研究生学位论文





题目:天网增量搜集子系统的设计与实现




姓名:王东海
学号:10308155
院系:信息科技学院
专业:计算机软件与理论
研究方向:计算机网络与分布式系统
导师:严伟副教授,韩华

二〇〇六年五月

版权声明

任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。


北京大学硕士学位论文
-PAGEI-

摘要

互联网中的网页呈几何级数的增长。对搜索引擎而言,及时搜集互联网中新出现和变化的网页是核心工作之一。
本文首先总结了当前有关搜集系统主要问题的解决方法。其后主要介绍天网增量搜集子系统中结点协作、URL调度、网页指纹、网页变化预测、URL缓冲等算法设计实现以及相关算法的性能测试。
在系统设计实现章节中较为详细说明了系统的体系结构和各主要模块的设计实现。通过良好设计,我们保证了系统具有良好的扩展性,并对内存和其它硬件资源利用等做了较好的优化。
为检测算法的有效性,我们跟踪了近50万的网页在一个月内的变化,并以此为测试集。在此测试集上对比了我们系统中实现的算法与其它算法,结论表明系统实现的动态选择算法在预测效果上要优于其它三个独立的算法。
论文最后总结了增量搜集子系统的运行情况:天网增量搜集子系统从2005年10月开始在单结点运行,平均每天提供约100万左右的新出现网页,有效地保证了天网搜索引擎的时新性。





关键字:天网,搜索引擎,增量搜集,网页变化预测


Master'sThesisofPekingUniversity
--




TheDesignandImplementationofTiwangincrementalcrawler
DonghaiWang(ComputerSoftwareandTheory)
DirectedbyWeiYan,HuaHan
Abstract

Thenumberofwebpages,whichfollowspower-lawdistribution,inInternetalwaysincreasessharply,anditiscrucialforamodernsearchenginetocollectnewwebpagesassoonaspossible.
Inthisarticlewe’llfirstintroducetherelatedworkaboutcrawlingandincrementalcrawlingtechnology,andthenwe’llstatethedesignandrealizationofseveralkeyalgorithms,namelynode-collaborationalgorithm,URLschedulingalgorithm,webpagefingerpointgenerationalgorithm,URLcachingalrogirhm,webpagechangeforcastalgortithm,etc.Besides,weevaluatetheperformanceoftheabovealgorithms.
We’llalsodescribethemainarchitectureofTianwangincrementalsub-systemandthedesignandimplementationofchiefcomponents.
Inordertoverifytheefficiencyofourwebpagechangeforcastalgorithm,we’vetracedabout500,000URLstorecordthehistoryoftheirchangingwithinonemonthasatest-set.Basedonthistest-set,wehavemadeacomprisonbetweenouralgothmandotherthreealgorithms.Wedrawaconclusionthatthealgorithmproposedinthisarticleismoreeffectivethantheotherthree.
Atlast,we’llsummarizetherunningconditionofthissub-system,whichhasbeenrunningonasinglecomputersinceOct.,2005.Wefindthatthesub-systemhasgreatlyenhancedthepreforcementoforiginalTianwan
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

天网增量搜集子系统的设计与实现

文档大小:1.1MB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用