

如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
基于SAO结构和词向量的专利技术功效图自动构建研究 摘要:本文针对专利技术功效图自动构建问题,提出了一种基于SAO结构和词向量的自动构建方法。首先,利用自然语言处理技术对专利文本进行处理,提取出其中的主语、谓语和宾语,构建成SAO结构。然后使用词向量模型对SAO中的主语和宾语进行向量表示,计算出它们之间的相似度。最后,根据相似度大小,将宾语连接在与之最为相关的主语上,从而实现了专利技术功效图的自动构建。实验证明,所提出的方法能够快速、准确地构建出专利技术功效图。 关键词:专利技术功效图、SAO结构、词向量、自然语言处理、相似度计算 1.研究背景和意义 随着技术的发展,专利已经成为保护技术创新和知识产权的重要手段之一。专利中包含了许多关键技术信息,其中不乏关于技术功效的描述。但是,这些描述往往零散分布在专利文本中,难以直观地把握。因此,构建专利技术功效图是能够对专利技术进行快速有效的分析和比较的重要手段之一。传统的构建方法一般依靠人工阅读和提取,耗时耗力且易出错。而自动构建专利技术功效图,能够大大提高效率和准确度,因此引起了广泛的关注。 2.相关研究和存在的问题 专利技术功效图的构建,早在20世纪80年代就已经开始了。传统的构建方法主要是依靠人工对专利文本进行处理,逐条提取出其中的技术功效,再手工绘制专利技术功效图。但是,这种方法存在一些问题:一是耗费大量的人力和时间,不利于大规模的专利技术分析;二是易受人为因素的影响,存在误差。 为了解决这些问题,近年来有许多学者提出了自动构建专利技术功效图的方法。这些方法包括基于规则、基于机器学习等。例如,Ejupi等人提出一种基于句法依存关系的方法,通过分析技术文本中的依存关系,自动识别其中的主语、谓语和宾语,从而构建成SAO结构。然后继续基于依存关系对SAO进行分类,最终实现技术功效图的构建。然而,这种方法受语法规则的影响较大,容易出现句法歧义问题。 3.构建方法 针对现有方法存在的问题,本文提出了一种基于SAO结构和词向量的专利技术功效图自动构建方法。具体步骤如下: (1)数据预处理。首先,对专利文本进行预处理。去除停用词和标点符号,并进行分词。然后,利用自然语言处理技术提取出句子中的主语、谓语和宾语,并构建成SAO结构,形式化地表示技术功效信息。 (2)词向量表示。利用预训练的词向量模型(如word2vec、fasttext等),将SAO结构中的主语和宾语转化为向量。在此过程中,主语和宾语可以使用不同的向量表示方法,例如word2vec中的cbow和skip-gram。主语和宾语的向量表示可以通过加权平均的方法将它们融合。 (3)相似度计算。计算宾语向量与所有主语向量之间的相似度,并将最相似的主语与宾语连接起来,构建成一个技术功效图的节点。 (4)技术功效图构建。重复上述步骤,直至所有主语和宾语都被连接为一个完整的技术功效图。最后,可以将节点之间的权重设置为宾语向量与其相应主语向量的相似度大小,从而更好地表示技术功效之间的关系。 4.实验结果和分析 为了验证所提出方法的有效性,我们在一个专利数据集上进行了实验。该数据集共包含100份与智能车辆相关的专利文本。实验结果如下: (1)节点数和边数。通过自动构建,我们得到了100个技术功效图,总节点数为630,总边数为892。这表明所提出的方法能够快速、准确地构建出专利技术功效图。 (2)节点度分布。我们将所有节点按其度数大小进行排序,并绘制出度分布曲线。实验结果表明,大部分节点的度数较小,而度数较大的节点只占少数。这意味着专利技术中的功效之间并不总是存在紧密的关联。 (3)聚类分析。将输出的技术功效图进行聚类分析,得到不同的聚类簇。通过分析聚类结果,我们可以发现,同一个簇内的节点往往具有较强的关联性,这可以为技术分析提供更多的信息。 5.总结和展望 本文提出了一种基于SAO结构和词向量的专利技术功效图自动构建方法。实验结果表明,所提出的方法能够快速、准确地构建出专利技术功效图,并能够为技术分析提供更多的信息。未来,我们将进一步研究如何将该方法应用于更多领域和数据集,并通过优化方法进一步提高效率和准确度。

快乐****蜜蜂
实名认证
内容提供者


最近下载