基于重复字串的微博新词非监督自动抽取-豆柴文库

您所在位置：网站首页 / 基于重复字串的微博新词非监督自动抽取.docx / 文档详情

在线预览结束，喜欢就下载吧，查找使用更方便

5 金币

下载文档

/ 3

下载提示

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

文本预览

基于重复字串的微博新词非监督自动抽取
摘要
本文提出了一种基于重复字串的微博新词非监督自动抽取的方法。该方法采用了一种基于统计的算法，通过对微博中的重复字串进行聚类，并结合词频和信息熵等指标，确定新词的抽取阈值，从而实现对未知新词的自动抽取。本文在对微博数据集进行实验后，证明了该方法具有较高的准确率和鲁棒性，能够有效地挖掘出微博中的新词。
关键词：微博；新词抽取；重复字串；非监督学习
Abstract
ThispaperproposesamethodforunsupervisedautomaticextractionofWeibonewwordsbasedonrepeatedsubstrings.Themethodadoptsastatistical-basedalgorithm,clusteringrepeatedsubstringsinWeibo,anddeterminestheextractionthresholdofnewwordsbycombiningwithwordfrequencyandinformationentropy.AfterexperimentsontheWeibodataset,thispaperprovesthatthemethodhashighaccuracyandrobustnessandcaneffectivelyminenewwordsinWeibo.
Keywords:Weibo;newwordextraction;repeatedsubstring;unsupervisedlearning
1.引言
随着社交媒体的发展，微博已经成为了人们生活中不可或缺的一部分。微博以其高效快捷的传播方式和广泛的覆盖面，以及其独特的文本特征，受到了越来越多的研究关注。其中，微博中的新词抽取一直是一个备受关注的课题。相比于其他语料库，微博的文本内容更加随意、生动，因此新词的产生也更加频繁。而传统的新词抽取方法，如基于词典、基于规则等，往往难以适应微博中新词的多样性和复杂性。
为了解决微博新词抽取的问题，近年来学者们提出了一系列基于机器学习的方法，如基于条件随机场（CRF）[1]、基于最大熵（MaxEnt）[2]等。这些方法通过对已知分词结果进行监督学习，来训练模型，从而实现新词的自动抽取。然而，这些方法需要依赖于已有的分词结果，无法适应微博中大量未知新词的情况。因此，本文提出了一种基于重复字串的微博新词非监督自动抽取方法，该方法可以通过对微博中的重复字串进行聚类，结合词频和信息熵等指标，自动抽取未知新词，并且不需要依赖于已有分词结果。
2.相关工作
2.1传统新词抽取方法
传统的新词抽取方法主要分为两类：基于词典的方法和基于规则的方法。其中，基于词典的方法通过构建词典来判断新出现的词汇是否为新词。基于规则的方法则通过规则匹配来实现新词的抽取。这些方法在短文本、长尾词等方面体现出了一定的优势，但是在微博这种高度动态的文本数据中，表现较差。
2.2基于机器学习的新词抽取方法
基于机器学习的新词抽取方法是近年来被广泛研究的一种方法。其中，基于条件随机场（CRF）和基于最大熵（MaxEnt）的方法是较为经典的两种。这些方法通过对已有的分词结果进行监督学习，建立模型，从而实现新词的自动抽取。但是，这些方法需要依赖于已有的分词结果，无法适应未知新词的情况。
2.3基于重复字串的新词抽取方法
随着互联网技术的发展，越来越多的研究者开始关注基于重复字串的新词抽取方法。该方法通过提取文本中的重复字串，并进行聚类，来实现未知新词的自动抽取。由于该方法不需要依赖于分词结果和词典，具有一定的鲁棒性和可扩展性，因此受到了广泛关注。
3.基于重复字串的微博新词非监督自动抽取方法
3.1数据预处理
本文对微博数据进行了预处理，包括去除停用词、过滤非中文文本、分词等过程。在预处理后，本文将微博划分为若干个文本片段，以便后续的处理。
3.2重复字串的提取和聚类
为了提取微博中的重复字串，本文采用了后缀数组（suffixarray）和最长公共前缀（longestcommonprefix，LCP）算法。该算法可以在时间复杂度为$O(nlogn)$的情况下，快速地计算出文本中的所有子串的LCP值，从而实现重复字串的提取。然后，基于相似性度量，采用层次聚类（hierarchicalclustering）算法对重复字串进行聚类。
3.3新词抽取和阈值确定
在聚类后，本文采用聚类中心（clustercenter）作为代表，对每个重复字串进行标记。标记后，依据聚类中的重复字串的个数和总长度，计算出每个聚类的词频（frequency）和信息熵（entropy）。在结合词频和信息熵等指标的情况下，本文通过测试数据集，选定了一定的阈值，以达到最佳的效果。
4.