基于重复字串的微博新词非监督自动抽取.docx 立即下载
2024-11-25
约2.2千字
约3页
0
11KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

基于重复字串的微博新词非监督自动抽取.docx

基于重复字串的微博新词非监督自动抽取.docx

预览

在线预览结束,喜欢就下载吧,查找使用更方便

5 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于重复字串的微博新词非监督自动抽取
摘要
本文提出了一种基于重复字串的微博新词非监督自动抽取的方法。该方法采用了一种基于统计的算法,通过对微博中的重复字串进行聚类,并结合词频和信息熵等指标,确定新词的抽取阈值,从而实现对未知新词的自动抽取。本文在对微博数据集进行实验后,证明了该方法具有较高的准确率和鲁棒性,能够有效地挖掘出微博中的新词。
关键词:微博;新词抽取;重复字串;非监督学习
Abstract
ThispaperproposesamethodforunsupervisedautomaticextractionofWeibonewwordsbasedonrepeatedsubstrings.Themethodadoptsastatistical-basedalgorithm,clusteringrepeatedsubstringsinWeibo,anddeterminestheextractionthresholdofnewwordsbycombiningwithwordfrequencyandinformationentropy.AfterexperimentsontheWeibodataset,thispaperprovesthatthemethodhashighaccuracyandrobustnessandcaneffectivelyminenewwordsinWeibo.
Keywords:Weibo;newwordextraction;repeatedsubstring;unsupervisedlearning
1.引言
随着社交媒体的发展,微博已经成为了人们生活中不可或缺的一部分。微博以其高效快捷的传播方式和广泛的覆盖面,以及其独特的文本特征,受到了越来越多的研究关注。其中,微博中的新词抽取一直是一个备受关注的课题。相比于其他语料库,微博的文本内容更加随意、生动,因此新词的产生也更加频繁。而传统的新词抽取方法,如基于词典、基于规则等,往往难以适应微博中新词的多样性和复杂性。
为了解决微博新词抽取的问题,近年来学者们提出了一系列基于机器学习的方法,如基于条件随机场(CRF)[1]、基于最大熵(MaxEnt)[2]等。这些方法通过对已知分词结果进行监督学习,来训练模型,从而实现新词的自动抽取。然而,这些方法需要依赖于已有的分词结果,无法适应微博中大量未知新词的情况。因此,本文提出了一种基于重复字串的微博新词非监督自动抽取方法,该方法可以通过对微博中的重复字串进行聚类,结合词频和信息熵等指标,自动抽取未知新词,并且不需要依赖于已有分词结果。
2.相关工作
2.1传统新词抽取方法
传统的新词抽取方法主要分为两类:基于词典的方法和基于规则的方法。其中,基于词典的方法通过构建词典来判断新出现的词汇是否为新词。基于规则的方法则通过规则匹配来实现新词的抽取。这些方法在短文本、长尾词等方面体现出了一定的优势,但是在微博这种高度动态的文本数据中,表现较差。
2.2基于机器学习的新词抽取方法
基于机器学习的新词抽取方法是近年来被广泛研究的一种方法。其中,基于条件随机场(CRF)和基于最大熵(MaxEnt)的方法是较为经典的两种。这些方法通过对已有的分词结果进行监督学习,建立模型,从而实现新词的自动抽取。但是,这些方法需要依赖于已有的分词结果,无法适应未知新词的情况。
2.3基于重复字串的新词抽取方法
随着互联网技术的发展,越来越多的研究者开始关注基于重复字串的新词抽取方法。该方法通过提取文本中的重复字串,并进行聚类,来实现未知新词的自动抽取。由于该方法不需要依赖于分词结果和词典,具有一定的鲁棒性和可扩展性,因此受到了广泛关注。
3.基于重复字串的微博新词非监督自动抽取方法
3.1数据预处理
本文对微博数据进行了预处理,包括去除停用词、过滤非中文文本、分词等过程。在预处理后,本文将微博划分为若干个文本片段,以便后续的处理。
3.2重复字串的提取和聚类
为了提取微博中的重复字串,本文采用了后缀数组(suffixarray)和最长公共前缀(longestcommonprefix,LCP)算法。该算法可以在时间复杂度为$O(nlogn)$的情况下,快速地计算出文本中的所有子串的LCP值,从而实现重复字串的提取。然后,基于相似性度量,采用层次聚类(hierarchicalclustering)算法对重复字串进行聚类。
3.3新词抽取和阈值确定
在聚类后,本文采用聚类中心(clustercenter)作为代表,对每个重复字串进行标记。标记后,依据聚类中的重复字串的个数和总长度,计算出每个聚类的词频(frequency)和信息熵(entropy)。在结合词频和信息熵等指标的情况下,本文通过测试数据集,选定了一定的阈值,以达到最佳的效果。
4.
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

基于重复字串的微博新词非监督自动抽取

文档大小:11KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用