您所在位置: 网站首页 / 信息检索论文.docx / 文档详情
信息检索论文.docx 立即下载
2025-08-26
约2.1万字
约36页
0
35KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

信息检索论文.docx

信息检索论文.docx

预览

免费试读已结束,剩余 31 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

信息检索论文

第一篇:信息检索论文信息检索与搜索引擎(论文)网页净化与消重技术学院(系):信息科学与工程学院专业:计算机应用技术年级:学生姓名:学号指导教师网页净化(noisereduction):识别和清除网页内的噪声内容(如广告、版权信息等),并提取网页主题以及与主题相关的内容。网页消重(replicasornear—replicasdetection):去除所搜集网页集合中主题内容重复的网页。在主题搜索领域,大量的广告、导航条等噪声内容会导致主题漂移(topicdrift)。这说明传统的主题搜索算法中以网页为粒度构造的web图不够准确,必须深入到网页内部将处理单元的粒度缩小,才能提高内容分析的准确性。在(Chakrabartietal.2001)中提出了一套解决方法,首先讲网页表示为一颗DOM数结构并找到与主题一致性较高的子树,然后对这些子树做特别的处理,从而提高主题的提炼的效果。在web信息检索领域,检索结果的相关性和检索的速度是评价一个web检索系统的两个指标。如果不去除原始网页中的噪声内容,检索系统必然对噪声内容也建立索引,从而导致仅仅因为查询词在某张网页的噪声内容中出现,而把该网页作为结果返回,而网页的主题内容可能和这个查询词完全无关。可以看出,噪声内容不仅使索引结构的规模变大,而且还会导致了检索系统准确性的下降。针对这个问题(Linetal.2002)中提出了一个去除网页中噪声内容的方法,该方法首先依据标签构造网页的标签树,从而依据标签将网页规划为相互嵌套的内容块;然后对于使用同一个模块做出的网页集。找出在该网页中多次出现的内容,作为沉余内容,而在该网页集中出现次数较少的内容快就是有效信息块。实验证明该方法是有效的,但该方法必须局限于同一个模版的网页集,而web上的网页模版不计其数,该方法显然不够通用。在网页分类领域,由于噪声内容与主题无关,训练集中的噪声内容会导致各个类别的特征不够明显,而待分类网页中的噪声内容则会导致改网页类别不明显,因而影响了网页自动分类的效果。(Yang1995,Lietal.2002)中提出了通过去掉网页中的噪声内容来提高网页分类质量的方法。在网页信息提取领域,自动识别漠视的方法必须要从整个网页中提取模式,而不是只针对主题内容提取。因此,在净化后的网页上作信息提取不仅可以排除噪声信息对信息提取的干扰,提高信息提取的准确性,而且可以使得网页中的结构简单化,提高信息提取的效率。噪声内容对基于网页的研究工作室普遍而严重的,虽然各个领域采用的方法各不相同,但处理的目的都是为了去除网页的噪声内容,得到真正的主题内容。随着web上的研究与应用的发展,单纯的网页内容已经不能满足需求,网页元数据得到越来越多的广泛使用。在web检索领域,单纯依赖关键词匹配的检索手段过于单一。内容类别、摘要等元数据信息的合理使用,不仅使用户可以从不同的角度进行查询,而且也使得查询的准确性得到提高。而主题搜索、个性化信息服务以及数字图书馆也都强烈的依赖资源的元数据信息。因此,准确且高效的提取必要的元数据是web上各个研究领域面临的重要问题。在元数据和主题内容的提取方法上,可以从信息提取领域的研究成果(特别是从HTML网页中提取语义信息)中得到很多启发。针对从HTML网页中提取语义信息,早期的方法是:针对某一类具体网页,人工提取该类的网页中的内容组织模式。然后,信息提取系统根据该模式从属于该类的网页中提取相应的内容(Hammeretal.1997,Ashishetal.1997)。对元数据和主题内容的提取可以采用同样的办法,但这些方法有一个共同的局限性,那就是需要人工提取内容组织模式,这对于内容组织繁多的web来说显然是不适用的。因此,在(Wembleetal.1999)中提出了5条启发式的规则,综合利用这5条规则系统可以自动地发现网页中各个主题信息块(chunk)的边界。(Yangetal.2001)提出了一种基于视觉相似性来自动分析网页语义结构的方法,该方法首先比较HTML网页内容的视觉相似性,然后使用一个模式发现算法来确定这些视觉相似性的内容最有可能的组织模式,最后按照该模式将内容重新组合。网页的净化和消重是搜索引擎当中预处理系统当中比较重要的环节!在这个环节当中搜索引擎把抓取的网页净化掉里面与网站主题无关的内容,比如,广告,版权信息等等,这个步骤是为了增加网站主题的准确性,提高反馈给用户信息的精准性,从而提高用户体验!消重从字面意思我们就不难理解了,就是消除网页当中的重复内容,我们日常访问的网站当中,内容可以是一对多,也就是同一个内容可能是多个URL当中都存在的!这个步骤保证了在信息反馈给用户的时候不至于过多的出现重复的网页让人产生反感!其实在SEO当中我们提出的一个降低噪音干扰也就是网页净化环节当中的,因为在SE
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

信息检索论文

文档大小:35KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用