您所在位置: 网站首页 / 一种同义词数据挖掘方法和系统.pdf / 文档详情
一种同义词数据挖掘方法和系统.pdf 立即下载
2023-12-07
约1.2万字
约15页
0
704KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

一种同义词数据挖掘方法和系统.pdf

201510908015.pdf

预览

免费试读已结束,剩余 10 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105868236A(43)申请公布日2016.08.17(21)申请号201510908015.2(22)申请日2015.12.09(71)申请人乐视网信息技术(北京)股份有限公司地址100081北京市海淀区学院南路68号19号楼六层6184号房间(72)发明人李建南(74)专利代理机构北京风雅颂专利代理有限公司11403代理人李阳李浩(51)Int.Cl.G06F17/30(2006.01)权利要求书3页说明书8页附图3页(54)发明名称一种同义词数据挖掘方法和系统(57)摘要本发明公开了一种同义词数据挖掘方法和系统,包括获取在词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;根据候选同义词库中的数据信息,训练并获得同义词模型;将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。因此,所述同义词数据挖掘方法和系统解决了在媒体播放中不能针对不同的观看群体进行视频文件观看限制的问题。CN105868236ACN105868236A权利要求书1/3页1.一种同义词数据挖掘方法,其特征在于,包括步骤:获取词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;根据候选同义词库中的数据信息,训练并获得同义词模型;将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。2.根据权利要求1所述的方法,其特征在于,所述在词典中的词汇对以及该词汇对的相似度值,通过将词典中所有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量,然后按照树形结构进行排列,将该词汇作为父节点,而它的预备同义词向量作为子节点,再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度;所述在视频文件库中词汇对以及该词汇对的相似度值,通过在一个预先设置的视频文件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的标题数量,count(w2)为w2出现的标题数量,count(w1,w2)为w1、w2在相同的标题中同时出现的数量;所述在搜索日志记录中,在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇,互为对方的预备同义词向量;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的查询数量,count(w2)为w2出现的查询数量,count(w1,w2)为w1、w2在相同的查询中同时出现的数量,same(w1,w2)为w1、w2在不同查询中但搜索了同一个结果的数量。3.根据权利要求2所述的方法,其特征在于,所述在建立词汇对与相似度值相关联的候选同义词库之前,还包括:将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值,并存储在候选同义词库中;还有,所述的候选同义词库表示为(w1,w2,T1,T2,T3,T),其中T1为词汇对w1、w2在词典中相似度值,T2为词汇对w1、w2在视频文件库中相似度值,T3为词汇对w1、w2在搜索日志记录中相似度值,T为词汇对w1、w2相似度平均值。4.根据权利要求3所述的方法,其特征在于,所述训练并获得同义词模型包括:从候选同义词库中提取第1条至第n条数据信息(w1,w2,T)作为输入,从候选同义词库中提取第n+1条至第2n条数据信息(w1,w2,T)作为输出,训练梯度提升决策树模型;获得同义词梯度提升决策树模型:F(T)=α1β1(T)+α2β2(T)+...+αmβm(T)其中,β1-βm是m棵决策树,α1-αm是每棵树的权重,T是每一对词汇相对应的三个向量的相似度值相加后的平均值。5.根据权利要求4所述的方法,其特征在于,所述将候选同义词库中每个词汇对对应的相似度值代入同义词模型是,将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的输出数值。2CN105868236A权利要求书2/3页6.一种同义词数据挖掘系统,其特征在于,包括:候选同义词库建立单元,用于获取词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;同义词模型建立单元,用于根据候选同义词库中的数据信息,训练并获得同义词模型;同义词库建立单元,用于将候选同义词库中每个词汇对应的相似度
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

一种同义词数据挖掘方法和系统

文档大小:704KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用