如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106250490A(43)申请公布日2016.12.21(21)申请号201610622162.8(22)申请日2016.08.01(71)申请人乐视控股(北京)有限公司地址100000北京市朝阳区姚家园路105号3号楼10层1102申请人乐视网信息技术(北京)股份有限公司(72)发明人康潮明(74)专利代理机构深圳市爱迪森知识产权代理事务所(普通合伙)44341代理人何婷(51)Int.Cl.G06F17/30(2006.01)权利要求书3页说明书11页附图6页(54)发明名称一种文本基因提取方法、装置及电子设备(57)摘要本发明涉及自然语言处理技术,尤其涉及一种文本基因提取方法、装置及电子设备。其中,该文本基因提取方法包括:构建文本基因词典,根据所述文本基因词典,生成待提取文本的第一候选文本基因集合;根据文本基因提取规则,生成所述待提取文本的第二候选文本基因集合;根据所述第一候选文本基因集合与所述第二候选文本基因集合,生成目标文本基因集合。本发明实施例通过两种方式分别获取两个候选文本基因集合,从而获取待提取文本的目标文本基因集合,丰富了文本基因提取方法,提高了文本基因提取准确率。CN106250490ACN106250490A权利要求书1/3页1.一种文本基因提取方法,其特征在于,包括:构建文本基因词典,根据所述文本基因词典,生成待提取文本的第一候选文本基因集合;根据文本基因提取规则,生成所述待提取文本的第二候选文本基因集合;根据所述第一候选文本基因集合与所述第二候选文本基因集合,生成目标文本基因集合。2.如权利要求1所述的方法,其特征在于,所述构建文本基因词典包括:将文本数据集经过预处理后生成第一句子集合;将所述第一句子集合中的句子分别进行分词处理和过滤,生成第一词语集合;将所述第一词语集合中的词语进行组合,生成二元组集合;分别求取所述二元组集合中二元组的支持度和置信度;判断所述二元组的支持度是否满足预设的最小支持度阈值,以及所述二元组的置信度是否满足预设的最小置信度阈值,若所述二元组的支持度满足预设的最小支持度阈值且所述二元组的置信度满足预设的最小置信度阈值,则将所述二元组用于构建关联集合;将所述关联集合中的二元组分别与预定的中心词语集合进行匹配,若匹配成功,则将所述二元组中匹配成功词语对应的另一项词语用于构建文本基因词典。3.如权利要求1所述的方法,其特征在于,所述根据所述文本基因词典,生成待提取文本的第一候选文本基因集合包括:将所述待提取文本经过预处理后生成第二句子集合;将所述第二句子集合中的句子进行分词处理和过滤,生成第二词语集合;将所述第二词语集合与预定的中心词语集合进行匹配,若匹配成功,根据所述第二词语集合和所述文本基因词典,生成第一候选文本基因集合。4.如权利要求3所述的方法,其特征在于,还包括:将所述文本基因词典中的同义词进行合并,生成同义词词典集合;统计所述第一候选文本基因集合中词语出现的频率;将所述第一候选文本基因集合中的词语与所述同义词词典集合进行匹配,若匹配成功,则将所述词语加入所述同义词词典集合,将所述词语和所述词语的同义词出现的频率进行累加。5.如权利要求1所述的方法,其特征在于,所述文本基因提取规则的生成方法包括:将文本数据集经过预处理后生成第三句子集合;将所述第三句子集合与预定的中心词语集合进行匹配,若匹配成功,则生成第四句子集合;将所述第四句子集合与所述文本基因词典进行匹配,若匹配成功,则生成第五句子集合;提取所述第五句子集合中指定方向的满足预定条件的目标词语集合;根据所述中心词语集合和所述目标词语集合,生成文本基因提取规则。6.一种文本基因提取装置,其特征在于,包括:第一候选文本基因集合生成模块,用于构建文本基因词典,根据所述文本基因词典,生成待提取文本的第一候选文本基因集合;2CN106250490A权利要求书2/3页第二候选文本基因集合生成模块,用于根据文本基因提取规则,生成所述待提取文本的第二候选文本基因集合;目标文本基因集合生成模块,用于根据所述第一候选文本基因集合与所述第二候选文本基因集合,生成目标文本基因集合。7.如权利要求6所述的装置,其特征在于,所述第一候选文本基因集合生成模块包括第一子模块,所述第一子模块包括:第一句子集合生成单元,用于将文本数据集经过预处理后生成第一句子集合;第一词语集合生成单元,用于将所述第一句子集合中的句子分别进行分词处理和过滤,生成第一词语集合;二元组集合生成单元,用于将所述第一词语集合中的词语进行二元组合,生成二元组集合;第一计算单元,用于分别求取所述二元组集合中二元组的支持度和置信度;关联集合生成单元,用于判断所述二元组的支持度是否满足预设的最小支持度阈值,以及
茂学****23
实名认证
内容提供者
最近下载