


如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
一种基于频繁词集的短文本特征扩展方法 随着社交媒体、电商平台、搜索引擎等在线应用的普及,短文本的处理成为了一个热门的研究领域。在这些应用中,短文本包含了很多有价值的信息,但是由于短文本的长度限制,存在着信息不充分、语境不明确等问题。为了充分利用短文本中的信息,研究人员提出了很多特征扩展的方法。其中,基于频繁词集的特征扩展方法成为了一种被广泛应用的技术。 1.频繁词集 频繁词集指的是在一个文档集合中经常出现的词语组合。频繁词集可以用于短文本的特征扩展,因为短文本中经常出现的词语组合可能包含了重要的语义信息。频繁词集的挖掘可以使用关联规则挖掘算法来进行,其中Apriori算法是最著名的关联规则挖掘算法之一。Apriori算法的基本思路是,根据支持度和置信度来筛选出频繁项集和强关联规则。 2.基于频繁词集的特征扩展方法 基于频繁词集的特征扩展方法可以通过以下步骤来实现: 步骤1:利用关联规则挖掘算法从短文本集合中挖掘出频繁词集。 步骤2:将频繁词集作为短文本的特征进行扩展。具体方法包括两种: 2.1将频繁词集作为短文本中的新特征。例如,一个由“银行卡”和“信用卡”组成的频繁词集可以作为一个新的特征引入到短文本中,同时将“银行卡”和“信用卡”作为原有特征的一部分继续使用。 2.2利用频繁词集构建属性词集合。例如,一个由“银行卡”和“信用卡”组成的频繁词集可以作为一个属性词集合,将属性词集合作为短文本的新特征。对于每一个短文本,检测其包含的属性词集合,用二值化方式转换为特征向量,继续使用原有特征和新的属性词集合作为特征。 3.实验研究 为了验证基于频繁词集的特征扩展方法的有效性,我们在两个公开数据集上进行了实验研究。 3.1数据集描述 我们选择了AGNews和Twitter数据集作为实验数据集。AGNews数据集包含了120,000条新闻文本,共分为四个类别:business、sci-tech、sports和world。Twitter数据集包含了1,500,000条包含情感标签的推文,共分为两个类别:positive和negative。 3.2实验设置 我们将分别使用基于频繁词集的特征扩展方法和常用的词袋模型进行分类实验,将结果进行比较。 为了训练分类器,我们采用了朴素贝叶斯分类器。我们将数据集按照70%的比例划分为训练集和30%的比例划分为测试集。我们使用准确率和召回率这两个指标来评价分类器效果。 3.3实验结果 对于AGNews数据集,我们使用了10,000个特征来训练分类器。实验结果如下表所示: |特征提取方法|准确率|召回率| |---|---|---| |词袋模型|0.8432|0.8441| |基于频繁词集的特征扩展方法|0.8997|0.9032| 对于Twitter数据集,我们使用了5,000个特征来训练分类器。实验结果如下表所示: |特征提取方法|准确率|召回率| |---|---|---| |词袋模型|0.7550|0.7550| |基于频繁词集的特征扩展方法|0.8462|0.8497| 从实验结果可知,基于频繁词集的特征扩展方法比常用的词袋模型在这两个数据集上有着更好的效果。频繁词集包含了文本中的重要信息,将频繁词集作为特征可以更充分地利用这些信息,使得分类器的性能得到了提升。 4.结论 基于频繁词集的特征扩展方法是一种有效的短文本特征扩展方法。它通过挖掘文本中的频繁词集,将其作为新的特征引入到分类器中,可以更充分地利用短文本中的信息,提高分类器的性能。在实验中,我们验证了基于频繁词集的特征扩展方法在AGNews和Twitter数据集上的有效性,实验结果表明,基于频繁词集的特征扩展方法比常用的词袋模型有着更好的性能。因此,在短文本分类任务中,基于频繁词集的特征扩展方法是一种值得使用的技术。

快乐****蜜蜂
实名认证
内容提供者


最近下载