




如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105868236A(43)申请公布日2016.08.17(21)申请号201510908015.2(22)申请日2015.12.09(71)申请人乐视网信息技术(北京)股份有限公司地址100081北京市海淀区学院南路68号19号楼六层6184号房间(72)发明人李建南(74)专利代理机构北京风雅颂专利代理有限公司11403代理人李阳李浩(51)Int.Cl.G06F17/30(2006.01)权利要求书3页说明书8页附图3页(54)发明名称一种同义词数据挖掘方法和系统(57)摘要本发明公开了一种同义词数据挖掘方法和系统,包括获取在词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;根据候选同义词库中的数据信息,训练并获得同义词模型;将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。因此,所述同义词数据挖掘方法和系统解决了在媒体播放中不能针对不同的观看群体进行视频文件观看限制的问题。CN105868236ACN105868236A权利要求书1/3页1.一种同义词数据挖掘方法,其特征在于,包括步骤:获取词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;根据候选同义词库中的数据信息,训练并获得同义词模型;将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。2.根据权利要求1所述的方法,其特征在于,所述在词典中的词汇对以及该词汇对的相似度值,通过将词典中所有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量,然后按照树形结构进行排列,将该词汇作为父节点,而它的预备同义词向量作为子节点,再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度;所述在视频文件库中词汇对以及该词汇对的相似度值,通过在一个预先设置的视频文件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的标题数量,count(w2)为w2出现的标题数量,count(w1,w2)为w1、w2在相同的标题中同时出现的数量;所述在搜索日志记录中,在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇,互为对方的预备同义词向量;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的查询数量,count(w2)为w2出现的查询数量,count(w1,w2)为w1、w2在相同的查询中同时出现的数量,same(w1,w2)为w1、w2在不同查询中但搜索了同一个结果的数量。3.根据权利要求2所述的方法,其特征在于,所述在建立词汇对与相似度值相关联的候选同义词库之前,还包括:将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值,并存储在候选同义词库中;还有,所述的候选同义词库表示为(w1,w2,T1,T2,T3,T),其中T1为词汇对w1、w2在词典中相似度值,T2为词汇对w1、w2在视频文件库中相似度值,T3为词汇对w1、w2在搜索日志记录中相似度值,T为词汇对w1、w2相似度平均值。4.根据权利要求3所述的方法,其特征在于,所述训练并获得同义词模型包括:从候选同义词库中提取第1条至第n条数据信息(w1,w2,T)作为输入,从候选同义词库中提取第n+1条至第2n条数据信息(w1,w2,T)作为输出,训练梯度提升决策树模型;获得同义词梯度提升决策树模型:F(T)=α1β1(T)+α2β2(T)+...+αmβm(T)其中,β1-βm是m棵决策树,α1-αm是每棵树的权重,T是每一对词汇相对应的三个向量的相似度值相加后的平均值。5.根据权利要求4所述的方法,其特征在于,所述将候选同义词库中每个词汇对对应的相似度值代入同义词模型是,将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的输出数值。2CN105868236A权利要求书2/3页6.一种同义词数据挖掘系统,其特征在于,包括:候选同义词库建立单元,用于获取词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;同义词模型建立单元,用于根据候选同义词库中的数据信息,训练并获得同义词模型;同义词库建立单元,用于将候选同义词库中每个词汇对应的相似度

玉怡****文档
实名认证
内容提供者


最近下载
最新上传
浙江省宁波市2024-2025学年高三下学期4月高考模拟考试语文试题及参考答案.docx
汤成难《漂浮于万有引力中的房屋》阅读答案.docx
四川省达州市普通高中2025届第二次诊断性检测语文试卷及参考答案.docx
山西省吕梁市2025年高三下学期第二次模拟考试语文试题及参考答案.docx
山西省部分学校2024-2025学年高二下学期3月月考语文试题及参考答案.docx
山西省2025年届高考考前适应性测试(冲刺卷)语文试卷及参考答案.docx
全国各地市语文中考真题名著阅读分类汇编.docx
七年级历史下册易混易错84条.docx
湖北省2024-2025学年高一下学期4月期中联考语文试题及参考答案.docx
黑龙江省大庆市2025届高三第三次教学质量检测语文试卷及参考答案.docx