面向产品评论的垃圾评论识别方法研究.pdf 立即下载
2024-11-15
约5.5万字
约44页
0
1.9MB
举报 版权申诉
预览加载中,请您耐心等待几秒...

面向产品评论的垃圾评论识别方法研究.pdf

面向产品评论的垃圾评论识别方法研究.pdf

预览

免费试读已结束,剩余 39 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开


密级:学校代码:10075

分类号:学号:20091328




工学硕士学位论文

面向产品评论的垃圾评论识别方法研究












学位申请人:刘立佳
指导教师:袁方教授
学位类别:工学硕士
学科专业:计算机应用技术
授予单位:河北大学

答辩日期:二〇一二年六月





ClassifiedIndex:CODE:10075
U.D.C:NO:20091328





ADissertationfortheDegreeofM.Engineering


ResearchonIdentifyingReviewSpam
forProductReviews









Candidate:LiuLijia
Supervisor:Prof.YuanFang
AcademicDegreeApplied:MasterofEngineering
Specialty:ComputerAppliedTechnology
University:HebeiUniversity
DateofOralExamination:June,2012




























摘要

摘要

近年来,随着因特网的快速发展,人们发表观点以及相互交流的方式也发生了改变。
在产品评论领域,人们越来越喜欢在购物网站上发表自己对产品所持有的观点。这些由
用户发表的观点中包含着丰富的有用的信息。同时,在这些观点中也充斥着一些无用的、

不真实的垃圾信息。这些垃圾信息的存在影响了产品评论挖掘的质量。
本文面向中文产品评论领域,对垃圾评论识别进行了研究,主要工作如下:
首先,通过对中文产品评论领域的垃圾评论进行分析,将垃圾评论分成无用评论和

不真实评论两大类别,并根据其特点的不同,提出了不同的识别方法。
针对无用评论的识别,将其看成是二元分类问题。使用产品特征词、对非产品信息

评价语句、问句以及超链接4个重要的分类特征,同时又结合信息增益方法自动抽取出
一部分特征来共同表示评论文本。最后由这些特征构成的特征值将评论文本向量化,再

采用基于Logistic回归的分类方法将评论文本分为正常评论和无用评论两大类来完成对
无用评论的识别。
针对不真实评论的识别,考虑了词与词之间的次序问题,并采用2-gram模型来表示
评论文本。在构建语言模型的同时,为了避免出现概率值为零的情况,采用Katz平滑方
法对模型进行平滑,最后计算每对语言模型的KL散度,如果其值小于某一给定的阈值,
则认为是不真实的评论。
实验结果表明,本文提出的方法能够有效地识别产品评论中存在的无用评论和不真

实评论。



关键词垃圾评论Logistic回归2-gram模型Katz平滑KL散度


I
Abstract

Abstract

Inrecentyears,withtherapiddevelopmentoftheInternet,thewayofexpressionand
communicationofpeoplehasalsochanged.Inthefieldofproductreviews,Peoplearemore
inclinedtoexpressthemselvesonsuchonlineshopping.Thoseexpressionsoftheusersare
richinvariedandusefulinformation.Meanwhilethoseexpressionsmayalsoincludesome
spaminformation.Thespaminformationhasaffectedthequalityoftheproductreviews
mining.
ThispapercomesupwithanidentificationwayofthespamintheChineseproduct
reviews.Themainworksareasfollows:
First,basedontheanalysisofspamreviewsintheChineseproductreviews,spam
reviewsareclassifiedintouselessreviewsanduntruthfulreviews.Differentmethodsof
detectionareproposedaccordingtotheirfeatures.
Astothedetectionofuselessreviews,thispapertakesitasbinaryclassificationproblem.
Weusefourimportantclassificationfeaturessuchasproduc
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

面向产品评论的垃圾评论识别方法研究

文档大小:1.9MB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用