4-外文文献译文-豆柴文库

您所在位置：网站首页 / 4-外文文献译文.docx / 文档详情

免费试读已结束，剩余 44 页请下载文档后查看

10 金币

下载文档

/ 49

下载提示

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

文本预览

4-外文文献译文

第一篇：4-外文文献译文毕业设计（论文）外文文献原文及译文毕业论文题目：常用博客和论坛数据自动抓取系统的设计与实现文献中文题目：UbiCrawler：一种可扩展的全分布式网络爬虫文献英文题目：UbiCrawler:ascalablefullydistributedWebcrawler专业软件工程学号学生姓名指导教师答辩日期2015-06-25哈尔滨工业大学哈尔滨工业大学本科毕业设计（论文）（外文文献）外文文献译文UbiCrawler：一种可扩展的全分布式网络爬虫1.引言在本文中我们介绍ubicrawler的设计与实现，一种可扩展的，可容错的全分布式网络爬虫，并且我们从先验和后验两方面评估了它的性能。ubicrawler设计的整体结构在[1]，[2]和[3]进行了描述。这项工作是一个项目的一部分，其目的是收集大量的数据集，研究Web的结构。这是从统计分析特定的网络域[4]估计的分布经典参数，如页面排名5]和重新设计阿里安娜发展的技术，最大的意大利搜索引擎等。由于该项目的第一阶段，我们发现集中爬虫已不再是足够的在网络中抓取有意义的部分。事实上，它已经认识到，“作为网络的大小成长，成为爬行的过程并行化势在必行，为了完成下载页在一个合理的时间量[6,7]。许多商业和研究机构运行他们的网络爬虫收集关于Web的数据。即使没有可用的代码，在一些情况下，基本的设计已被公开：这都是是案例，例如，墨卡托[8]（AltaVista爬虫），原来的谷歌爬虫[9]，和一些在学术界的爬虫{10–12]。尽管如此，几乎没有发表的作品实际上探讨了在爬行过程中所涉及的不同任务的并行化这个基本的问题。特别是，我们知道的所有的方法都是使用某种集中管理，决定去访问哪些网址，并存储已经被抓取的网址。最好，这些组件可以被复制，他们的工作可以被划分为静态。相反，当设计ubicrawler，我们决定把每一项任务，具有明显的可扩展性和容错性方面的优势。ubicrawler的基本特征：•平台独立性；•充分分配每一个任务（没有单一的故障点和没有集中协调）；•基于一致哈希的局部可计算的地址分配；•容忍故障：永久性以及短暂的优雅地处理故障；•可扩展性。哈尔滨工业大学本科毕业设计（论文）（外文文献）•网址的分布应该是平衡的，即，每个代理应该负责约相同数量的网址。在异构代理的情况下，网址的数目应该是成正比的代理的可用资源（如内存，硬盘容量等）。可扩展性。每秒的页面数和代理应该是（几乎）独立的代理数量。换句话说，我们期望的吞吐量与代理的数量呈线性增长。文雅性。一个平行的爬虫决不应该试图从一个给定的主机上获取一页以上的一页。此外，一个合适的延迟，应在随后的请求之间引入相同的主机。容错性。一个分布式的爬虫应该能继续工作在崩溃故障下，这是当一些代理突然死亡的时候。在这种崩溃的存在下，没有行为可以被假定，除了有缺陷的代理停止通信；特别是，一个不能规定任何行动，一个崩溃的代理人，或恢复其状态之后。当一个代理崩溃，剩余的代理应继续满足就地平衡计算分配的要求：这意味着，在特定的URL，这架代理将被重新分配。这有2个重要的后果。•不可能假设网址是静态分布。•由于“就地平衡计算任务的要求必须满足在任何时间”，在崩溃之后依靠分布式分配协议这是不合理的。事实上，在重新分配的要求将被破坏。3.软件体系结构ubicrawler由几个代理，自主协调它们的行为，在这样一种方式，每个人扫描其网络的共享。一个代理执行它的任务，通过运行多个线程，每一个单独的主机单独访问。更确切地说，每一个线程扫描一个主机使用广度优先访问。我们确保不同的线程访问不同的主机在同一时间，因此，每个主机不超载太多的要求。这是不是本地主机的给定样本被派遣到代理权，使其在页面被访问队列。因此，整体的Web访问是广度优先，但尽快达到一个新的主机，它是完全访问（可能有界深度达到或总页数），再次在广度优先的方式。更先进的方法（可以考虑适当的优先级相关的网址，如，他们的排名）可以很容易地实现。然而，值得注意的是，有几个作者（见，例如，[13]）认为，广度优先访问倾向于在爬取的时候找到高质量的网页。关于页面质量的一个更深入的讨论，在第6节中给出。哈尔滨工业大学本科毕业设计（论文）（外文文献）一个重要的优势是，每个主机广度优先访问DNS请求是罕见的。网络爬虫使用全球广度优先策略必须在DNS服务器的高延迟：这通常是由一个多线程缓存缓冲请求通过了。同样，没有缓存是由“机器人排除标准”[14]所需的robots.txt文件需要；事实上这样的文件可以下载，当主机访问开始。代理的主机分配考虑到在每个代理的质量存储资源和带宽。这是目前所做的一个单一的指标，称为能力，这是作为一个权重的分配功能分配主机使用。在某些情况下，每一个代理的主机比例的比例，其容量的主机