

如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
基于“Effect-theme”共现网络的专利分类方法 摘要 本文提出一种基于“Effect-theme”共现网络的专利分类方法。通过统计专利文本中“Effect-theme”共现关系,建立共现网络,并采用社区发现算法分析网络结构,将专利文本按照主题进行聚类,实现对专利的分类。实验结果表明,该方法能够有效提高专利分类的准确性和效率。 关键词:专利分类;“Effect-theme”共现网络;社区发现;文本聚类 1.引言 如何对大量的专利文本进行有效地分类,是专利数据库管理、技术竞争情报分析等领域面临的一个重要问题。传统的基于主题词和关键词的分类方法,存在词汇匹配不准确、分类主题单一等问题。本文提出一种基于“Effect-theme”共现网络的专利分类方法,通过挖掘专利文本中“Effect-theme”共现关系,建立共现网络,采用社区发现算法分析网络结构,实现对专利文本的聚类。 2.相关工作 现有的专利分类方法主要包括基于主题词和关键词的分类方法、基于文本相似度的聚类方法、基于知识图谱的分类方法等。其中,基于主题词和关键词的分类方法应用最为广泛。该方法通过人工或自动抽取文本中的主题词和关键词,将文本按照词语匹配程度进行分类。然而,该方法存在词汇匹配不准确、分类主题单一等问题,无法充分挖掘专利文本中的知识。 相比之下,基于文本相似度的聚类方法能够更好地挖掘专利文本中的主题。该方法通过计算文本之间的相似度,将相似的文本聚为一类。该方法的主要问题在于,文本相似度的计算较为复杂,且聚类结果易受初始聚类中心的选择影响。 另外,基于知识图谱的分类方法已经得到了广泛应用。该方法通过构建专利知识图谱,利用图谱中的关系分析专利之间的联系,实现对专利的分类。然而,该方法需要耗费大量的人力和物力来构建图谱,且需要满足一定的领域知识背景才能准确分类。 3.方法描述 3.1“Effect-theme”共现网络 本文提出的方法基于“Effect-theme”共现网络。专利文本中的“Effect”指的是专利所涉及的技术效果和应用效果,“Theme”指的是专利涉及的主题。例如,在一篇专利中,技术效果为“提高太阳能电池的转换效率”,主题为“太阳能电池”。则该专利的“Effect-theme”为“提高太阳能电池的转换效率-太阳能电池”。 通过统计专利文本中“Effect-theme”的共现关系,建立“Effect-theme”共现网络。在共现网络中,每个节点表示一个“Effect-theme”,节点之间的连边表示“Effect-theme”之间共现的次数,即几个“Effect-theme”同时出现在同一篇专利中。 3.2社区发现算法 通过对共现网络进行社区发现,将专利文本按照主题进行聚类。本文采用Louvain算法(Blondeletal.,2008)进行社区发现,该算法具有计算效率高、精度优良等优点。 Louvain算法的基本思想是不断合并社区,使模块度最大化。具体实现方式是,首先将每个节点看作一个社区;随后对每个节点进行遍历,将节点不断归属于相邻节点或者已有的社区;最后对社区进行合并,得到聚类结果。 4.实验结果 本文在USPTO数据库中随机抽取了1000个专利进行实验。对比了本文提出的方法和基于主题词和关键词的分类方法。其中,基于主题词和关键词的分类方法采用jieba分词工具对专利文本进行分词,然后统计文本中出现次数最多的n个词作为分类词,将专利按照分类词进行分类,其中n取值为2、3、4、5、6、7、8、9、10。本文提出的方法中,社区发现算法使用的Louvain算法,将一个“Effect-theme”看作一个节点。 实验结果表明,本文提出的方法能够有效提高专利分类的准确性和效率。将结果与基于主题词和关键词的分类方法进行对比,可以看出,基于主题词和关键词的分类方法存在分类主题单一、错漏分类等问题;而本文提出的方法可以全面挖掘专利文本中的主题,聚类结果更加准确。同时,本文提出的方法的计算时间也短于基于主题词和关键词的分类方法。 5.结论 本文提出了一种基于“Effect-theme”共现网络的专利分类方法。该方法通过挖掘专利文本中的主题关系,建立共现网络,使用社区发现算法进行聚类,实现对专利文本的分类。实验结果表明,该方法能够有效提高专利分类的准确性和效率。未来,可以考虑进一步优化方法,提高分类效果。

快乐****蜜蜂
实名认证
内容提供者


最近下载