基于频繁词集聚类的微博新话题快速发现-豆柴文库

您所在位置：网站首页 / 基于频繁词集聚类的微博新话题快速发现.docx / 文档详情

在线预览结束，喜欢就下载吧，查找使用更方便

5 金币

下载文档

/ 4

下载提示

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

文本预览

基于频繁词集聚类的微博新话题快速发现
摘要
随着社交网络的发展，微博已经成为人们获取信息、交流互动的重要平台。针对微博中新话题的快速发现问题，本文提出了一种基于频繁词集聚类的方法。该方法首先利用文本预处理和TF-IDF算法提取微博文本的关键词，并通过频繁模式挖掘算法得到频繁词集。然后，将频繁词集作为聚类的基础来对微博进行聚类，通过主题模型进一步提取话题。最后，通过实验验证了该方法在微博新话题发现方面的有效性。
关键词：微博；新话题发现；频繁词集聚类；主题模型
Abstract
Withthedevelopmentofsocialnetworks,microblogshavebecomeanimportantplatformforpeopletoobtaininformationandcommunicate.Tosolvetheproblemofquickdiscoveryofnewtopicsinmicroblogs,thispaperproposesamethodbasedonfrequentwordsetclustering.ThismethodfirstusestextpreprocessingandtheTF-IDFalgorithmtoextractkeywordsfrommicroblogtexts,andthenobtainsfrequentwordsetsthroughfrequentpatternminingalgorithms.Then,thefrequentwordsetsareusedasthebasisforclusteringmicroblogs,andtopicsarefurtherextractedthroughtopicmodeling.Finally,theeffectivenessofthemethodindiscoveringnewtopicsinmicroblogsisverifiedthroughexperiments.
Keywords:microblogs;newtopicdiscovery;frequentwordsetclustering;topicmodeling
1.引言
微博是目前社交网络中最为流行的一种形式之一，它的快速传播特性和广泛的覆盖面使其成为人们获取信息和展示个人观点的最佳平台之一。然而，大量的微博内容与其传播速度也使得新话题的快速发现变得越来越重要。对于新话题，尤其是那些具有时效性和紧迫性的话题，如果能够快速的发现和推广，对相关人群和社会将会产生积极的影响。
目前，计算机科学领域的研究者已经提出了许多方法来解决新话题的快速发现问题。其中一种方法是基于聚类的方法，这种方法可以将具有相似主题的微博聚为一类，并且提取出该类别下的主题标签。然而，由于微博文本非常短小精悍，文本的稀疏性和噪声会导致聚类效果下降。因此，需要一个更为有效的聚类方法来解决这个问题。
本文提出了一种基于频繁词集聚类的方法来快速发现微博新话题。该方法首先利用文本预处理和TF-IDF算法提取微博文本的关键词，并通过频繁模式挖掘算法得到频繁词集。然后，将频繁词集作为聚类的基础来对微博进行聚类，通过主题模型进一步提取话题。最后，通过实验验证了该方法在微博新话题发现方面的有效性。
2.相关工作
目前，已经有很多方法用于微博新话题快速发现。其中一些方法基于聚类，另一些方法基于主题模型。以下是一些代表性的方法：
2.1基于聚类的方法
基于聚类的方法首先将微博分为几个类别，然后提取每个类别的关键词，最后根据关键词确定类别的主题。该方法的缺点是聚类效果不稳定，因为微博文本较短，稀疏性高，以及不断变化的新词汇。忽略频繁词集，可能导致结果的不准确性。
2.2基于主题模型的方法
基于主题模型的方法将微博文本看作是一个概率分布，将每个词与主题进行关联，并在每个主题中进一步提取关键词，以此确定主题。该方法缺点是稀疏性高，噪声大，需要足够的训练集才能得到准确的主题。
2.3基于频繁集合的聚类方法
常用的FIM算法包括Apriori、FP-Growth等。Apriori算法是在所有候选项集的子集中枚举出频繁项集，这会导致其性能降低。FP-Growth算法使用后缀链接表构建频繁项集树，其在枚举的候选项集的子集中有效地避免了大量的计算。
3.方法
3.1数据预处理
本文收集了大量的微博数据，对其进行预处理，包括去除HTML标签，过滤停用词，去除空格和符号等。然后使用jieba工具将句子中的中文词进行分词处理。最后使用TF-IDF算法（词频-逆文档频率）来确定文本的关键词。这可以减少稀疏性和噪声，提高模型的准确性。
3.2频繁词集挖掘
通过文本的预处理步骤，对于每个微博，我们得到了N个关键词。然后使用频繁模式挖掘算法来找出频繁词集