




如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
密级:学校代码:10075 分类号:学号:20091328 工学硕士学位论文 面向产品评论的垃圾评论识别方法研究 学位申请人:刘立佳 指导教师:袁方教授 学位类别:工学硕士 学科专业:计算机应用技术 授予单位:河北大学 答辩日期:二〇一二年六月 ClassifiedIndex:CODE:10075 U.D.C:NO:20091328 ADissertationfortheDegreeofM.Engineering ResearchonIdentifyingReviewSpam forProductReviews Candidate:LiuLijia Supervisor:Prof.YuanFang AcademicDegreeApplied:MasterofEngineering Specialty:ComputerAppliedTechnology University:HebeiUniversity DateofOralExamination:June,2012 摘要 摘要 近年来,随着因特网的快速发展,人们发表观点以及相互交流的方式也发生了改变。 在产品评论领域,人们越来越喜欢在购物网站上发表自己对产品所持有的观点。这些由 用户发表的观点中包含着丰富的有用的信息。同时,在这些观点中也充斥着一些无用的、 不真实的垃圾信息。这些垃圾信息的存在影响了产品评论挖掘的质量。 本文面向中文产品评论领域,对垃圾评论识别进行了研究,主要工作如下: 首先,通过对中文产品评论领域的垃圾评论进行分析,将垃圾评论分成无用评论和 不真实评论两大类别,并根据其特点的不同,提出了不同的识别方法。 针对无用评论的识别,将其看成是二元分类问题。使用产品特征词、对非产品信息 评价语句、问句以及超链接4个重要的分类特征,同时又结合信息增益方法自动抽取出 一部分特征来共同表示评论文本。最后由这些特征构成的特征值将评论文本向量化,再 采用基于Logistic回归的分类方法将评论文本分为正常评论和无用评论两大类来完成对 无用评论的识别。 针对不真实评论的识别,考虑了词与词之间的次序问题,并采用2-gram模型来表示 评论文本。在构建语言模型的同时,为了避免出现概率值为零的情况,采用Katz平滑方 法对模型进行平滑,最后计算每对语言模型的KL散度,如果其值小于某一给定的阈值, 则认为是不真实的评论。 实验结果表明,本文提出的方法能够有效地识别产品评论中存在的无用评论和不真 实评论。 关键词垃圾评论Logistic回归2-gram模型Katz平滑KL散度 I Abstract Abstract Inrecentyears,withtherapiddevelopmentoftheInternet,thewayofexpressionand communicationofpeoplehasalsochanged.Inthefieldofproductreviews,Peoplearemore inclinedtoexpressthemselvesonsuchonlineshopping.Thoseexpressionsoftheusersare richinvariedandusefulinformation.Meanwhilethoseexpressionsmayalsoincludesome spaminformation.Thespaminformationhasaffectedthequalityoftheproductreviews mining. ThispapercomesupwithanidentificationwayofthespamintheChineseproduct reviews.Themainworksareasfollows: First,basedontheanalysisofspamreviewsintheChineseproductreviews,spam reviewsareclassifiedintouselessreviewsanduntruthfulreviews.Differentmethodsof detectionareproposedaccordingtotheirfeatures. Astothedetectionofuselessreviews,thispapertakesitasbinaryclassificationproblem. Weusefourimportantclassificationfeaturessuchasproduc

光誉****君哥
实名认证
内容提供者


最近下载