CN202311075907X一种人行征信报告敏感词识别方法及系统.pdf 立即下载
2024-08-17
约1.5万字
约16页
0
1.9MB
举报 版权申诉
预览加载中,请您耐心等待几秒...

CN202311075907X一种人行征信报告敏感词识别方法及系统.pdf

CN202311075907X一种人行征信报告敏感词识别方法及系统.pdf

预览

免费试读已结束,剩余 11 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN117094327A
(43)申请公布日2023.11.21
(21)申请号202311075907.XG06N3/045(2023.01)
(22)申请日2023.08.25G06N3/08(2023.01)

(71)申请人杭银消费金融股份有限公司
地址310000浙江省杭州市拱墅区潮鸣街
道庆春路38号8层(801、802、803、804
室)、9层、11层(1101、1102室)(自主申
报)
(72)发明人李恒奎陈辰王震
(74)专利代理机构浙江维创盈嘉专利代理有限
公司33477
专利代理师李博
(51)Int.Cl.
G06F40/30(2020.01)
G06Q40/03(2023.01)
G06F16/35(2019.01)
权利要求书2页说明书9页附图4页
(54)发明名称
一种人行征信报告敏感词识别方法及系统
(57)摘要
本申请公开了一种人行征信报告敏感词识
别方法及系统。其首先获取待处理人行征信报
告,然后,对所述待处理人行征信报告进行敏感
词识别以得到敏感词识别结果。这样,可以通过
对人行征信报告进行语义编码以得到所述人行
征信报告中各个词的语义信息,进而在语义空间
中与各个敏感词的语义信息进行语义匹配以判
断所述人行征信报告中各个词是否为敏感词,进
而提高对敏感词的检测能力。
CN117094327A
CN117094327A权利要求书1/2页

1.一种人行征信报告敏感词识别方法,其特征在于,包括:
获取待处理人行征信报告;以及
对所述待处理人行征信报告进行敏感词识别以得到敏感词识别结果。
2.根据权利要求1所述的人行征信报告敏感词识别方法,其特征在于,对所述待处理人
行征信报告进行敏感词识别以得到敏感词识别结果,包括:
从所述待处理人行征信报告提取待处理人行征信报告文本信息;
对所述待处理人行征信报告文本信息进行预处理以得到预处理后人行征信报告文本
信息;以及
对所述预处理后人行征信报告文本信息进行敏感词识别以得到所述敏感词识别结果。
3.根据权利要求2所述的人行征信报告敏感词识别方法,其特征在于,对所述预处理后
人行征信报告文本信息进行敏感词识别以得到所述敏感词识别结果,包括:
对所述预处理后人行征信报告文本信息进行分词处理以得到人行征信报告描述词的
序列;
将所述人行征信报告描述词的序列通过基于转换器的BERT模型以得到各个人行征信
报告描述词特征向量;以及
对所述各个人行征信报告描述词特征向量进行基于语义匹配的敏感词识别以得到所
述敏感词识别结果。
4.根据权利要求3所述的人行征信报告敏感词识别方法,其特征在于,将所述人行征信
报告描述词的序列通过基于转换器的BERT模型以得到各个人行征信报告描述词特征向量,
包括:
使用所述基于转换器的BERT模型的嵌入层将所述人行征信报告描述词的序列中各个
人行征信报告描述词映射到词向量以获得人行征信报告描述词向量的序列;以及
将所述人行征信报告描述词向量的序列输入所述基于转换器的BERT模型进行基于全
局的上下文语义编码以获得所述各个人行征信报告描述词特征向量。
5.根据权利要求4所述的人行征信报告敏感词识别方法,其特征在于,对所述各个人行
征信报告描述词特征向量进行基于语义匹配的敏感词识别以得到所述敏感词识别结果,包
括:
计算所述各个人行征信报告描述词特征向量与各个敏感词的词特征向量之间的词敏
感匹配关联矩阵;以及
基于所述词敏感匹配关联矩阵,生成所述敏感词识别结果。
6.根据权利要求5所述的人行征信报告敏感词识别方法,其特征在于,基于所述词敏感
匹配关联矩阵,生成所述敏感词识别结果,包括:
将所述词敏感匹配关联矩阵通过分类器以得到分类结果,所述分类结果用于表示与所
述各个人行征信报告描述词特征向量对应的人行征信报告描述词是否为敏感词。
7.根据权利要求6所述的人行征信报告敏感词识别方法,其特征在于,还包括训练步
骤:对所述基于转换器的BERT模型和所述分类器进行训练。
8.根据权利要求7所述的人行征信报告敏感词识别方法,其特征在于,所述训练步骤,
包括:
获取训练数据,所述训练数据包括人行征信报告和人行征信报告中各个词是否为敏感

2
CN117094327A权利要求书2/2页
词的真实值;
使用基于所述转换器的BERT模型对所述人行征信报告进行处理以得到各个训练人行
征信报告描述词特征向量;
计算所述各个训练人行征信报告描述词特征向量与各个训练敏感词的词特征向量之
间的训练词敏感匹配关联矩阵;
将所述训练词敏感匹配关联矩阵通过分类器以得到分类损失函数值;
计算所述训练词敏感匹配关联矩阵的流形凸分解一致性因数;以及
以所述分类损失函数值和所述流形凸分解一致性因数的加权
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

CN202311075907X一种人行征信报告敏感词识别方法及系统

文档大小:1.9MB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用