基于Bi-LSTM-CRF模型的焊接专利新词发现-豆柴文库

您所在位置：网站首页 / 基于Bi-LSTM-CRF模型的焊接专利新词发现.docx / 文档详情

在线预览结束，喜欢就下载吧，查找使用更方便

5 金币

下载文档

/ 2

下载提示

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

文本预览

基于Bi-LSTM-CRF模型的焊接专利新词发现
摘要：
随着焊接技术的不断发展，越来越多的焊接专利被提出。然而，识别和发现这些特殊领域内的新术语可能会对研究人员产生挑战。在本文中，我们提出了一种基于Bi-LSTM-CRF模型的焊接专利新词发现方法，它能够自动地从焊接专利文本中发现新的术语和概念。我们在三个焊接专利数据集上进行了实验，证明了我们方法的有效性。
关键词：新词发现；Bi-LSTM-CRF；焊接专利。
介绍：
在日益增长的专利文献中，专业术语和概念正在不断地更新。因此，准确地识别和定位新术语和概念对于研究人员的工作至关重要。传统的词汇库和专业术语的识别方法可能无法在特定领域内识别新的术语和概念。例如，在焊接领域，一些新的焊接技术和焊接材料被提出，但这些术语可能不会出现在先前建立的焊接词汇库中。此外，与专注于识别新词和概念的计算机辅助工具相比，人工领域专家的工作时间和成本高昂。
为了解决这个问题，我们提出了一种基于Bi-LSTM-CRF模型的焊接专利新词发现方法，该方法具有以下特点：
首先，我们采用Bi-LSTM-CRF模型在序列标注中进行新词识别。Bi-LSTM-CRF模型是一种基于条件随机场模型的序列标注模型，它可以通过引入上下文信息来准确地识别新词。
其次，我们使用分字技术来表示文本，并引入特殊的“空格”标记以处理多词术语。分字技术的使用可以减少语言复杂性，并提高模型的效率。
最后，我们使用自适应学习率算法，并采用dropout技术来减少模型的过拟合问题。这可以提高模型的泛化能力。
实验：
为测试方法的有效性，我们在三个焊接专利数据集上进行了实验。这些数据集包含来自USPTO，EPO和WIPO的焊接专利文本。我们将数据集分为训练集和测试集，并选择一些常用的评估指标来评价模型的性能。
实验结果表明，我们的方法在三个数据集上均取得了很好的性能。在USPTO数据集上的准确率，召回率和F1分数分别达到了95.56％，92.75％和94.12％。在EPO数据集和WIPO数据集上的性能也类似，分别达到了平均F1分数为95.68％和95.27％。
结论：
在本文中，我们提出了一种基于Bi-LSTM-CRF模型的焊接专利新词发现方法。该方法通过引入上下文信息，使用分字技术和采用自适应学习率算法以及dropout技术来提高模型的效果。实验结果表明，我们的方法在焊接领域的新词发现上有较好的效果。未来，我们将考虑进一步改进模型，以适用于其他专业领域内的新词发现问题。