


如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
基于重复字串的微博新词非监督自动抽取 摘要 本文提出了一种基于重复字串的微博新词非监督自动抽取的方法。该方法采用了一种基于统计的算法,通过对微博中的重复字串进行聚类,并结合词频和信息熵等指标,确定新词的抽取阈值,从而实现对未知新词的自动抽取。本文在对微博数据集进行实验后,证明了该方法具有较高的准确率和鲁棒性,能够有效地挖掘出微博中的新词。 关键词:微博;新词抽取;重复字串;非监督学习 Abstract ThispaperproposesamethodforunsupervisedautomaticextractionofWeibonewwordsbasedonrepeatedsubstrings.Themethodadoptsastatistical-basedalgorithm,clusteringrepeatedsubstringsinWeibo,anddeterminestheextractionthresholdofnewwordsbycombiningwithwordfrequencyandinformationentropy.AfterexperimentsontheWeibodataset,thispaperprovesthatthemethodhashighaccuracyandrobustnessandcaneffectivelyminenewwordsinWeibo. Keywords:Weibo;newwordextraction;repeatedsubstring;unsupervisedlearning 1.引言 随着社交媒体的发展,微博已经成为了人们生活中不可或缺的一部分。微博以其高效快捷的传播方式和广泛的覆盖面,以及其独特的文本特征,受到了越来越多的研究关注。其中,微博中的新词抽取一直是一个备受关注的课题。相比于其他语料库,微博的文本内容更加随意、生动,因此新词的产生也更加频繁。而传统的新词抽取方法,如基于词典、基于规则等,往往难以适应微博中新词的多样性和复杂性。 为了解决微博新词抽取的问题,近年来学者们提出了一系列基于机器学习的方法,如基于条件随机场(CRF)[1]、基于最大熵(MaxEnt)[2]等。这些方法通过对已知分词结果进行监督学习,来训练模型,从而实现新词的自动抽取。然而,这些方法需要依赖于已有的分词结果,无法适应微博中大量未知新词的情况。因此,本文提出了一种基于重复字串的微博新词非监督自动抽取方法,该方法可以通过对微博中的重复字串进行聚类,结合词频和信息熵等指标,自动抽取未知新词,并且不需要依赖于已有分词结果。 2.相关工作 2.1传统新词抽取方法 传统的新词抽取方法主要分为两类:基于词典的方法和基于规则的方法。其中,基于词典的方法通过构建词典来判断新出现的词汇是否为新词。基于规则的方法则通过规则匹配来实现新词的抽取。这些方法在短文本、长尾词等方面体现出了一定的优势,但是在微博这种高度动态的文本数据中,表现较差。 2.2基于机器学习的新词抽取方法 基于机器学习的新词抽取方法是近年来被广泛研究的一种方法。其中,基于条件随机场(CRF)和基于最大熵(MaxEnt)的方法是较为经典的两种。这些方法通过对已有的分词结果进行监督学习,建立模型,从而实现新词的自动抽取。但是,这些方法需要依赖于已有的分词结果,无法适应未知新词的情况。 2.3基于重复字串的新词抽取方法 随着互联网技术的发展,越来越多的研究者开始关注基于重复字串的新词抽取方法。该方法通过提取文本中的重复字串,并进行聚类,来实现未知新词的自动抽取。由于该方法不需要依赖于分词结果和词典,具有一定的鲁棒性和可扩展性,因此受到了广泛关注。 3.基于重复字串的微博新词非监督自动抽取方法 3.1数据预处理 本文对微博数据进行了预处理,包括去除停用词、过滤非中文文本、分词等过程。在预处理后,本文将微博划分为若干个文本片段,以便后续的处理。 3.2重复字串的提取和聚类 为了提取微博中的重复字串,本文采用了后缀数组(suffixarray)和最长公共前缀(longestcommonprefix,LCP)算法。该算法可以在时间复杂度为$O(nlogn)$的情况下,快速地计算出文本中的所有子串的LCP值,从而实现重复字串的提取。然后,基于相似性度量,采用层次聚类(hierarchicalclustering)算法对重复字串进行聚类。 3.3新词抽取和阈值确定 在聚类后,本文采用聚类中心(clustercenter)作为代表,对每个重复字串进行标记。标记后,依据聚类中的重复字串的个数和总长度,计算出每个聚类的词频(frequency)和信息熵(entropy)。在结合词频和信息熵等指标的情况下,本文通过测试数据集,选定了一定的阈值,以达到最佳的效果。 4.

快乐****蜜蜂
实名认证
内容提供者


最近下载