数据处理与模型训练方法、装置、电子设备和存储介质.pdf 立即下载
2023-07-24
约1.5万字
约19页
0
617KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

数据处理与模型训练方法、装置、电子设备和存储介质.pdf

202111493424.pdf

预览

免费试读已结束,剩余 14 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114138976A(43)申请公布日2022.03.04(21)申请号202111493424.2(22)申请日2021.12.08(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人武思文许林丰许海洋许韩晨玺张巨岩杨德将(74)专利代理机构北京市铸成律师事务所11313代理人陈晓欣包莉莉(51)Int.Cl.G06F16/35(2019.01)G06F40/289(2020.01)G06K9/62(2022.01)G06N20/00(2019.01)权利要求书3页说明书10页附图5页(54)发明名称数据处理与模型训练方法、装置、电子设备和存储介质(57)摘要本公开提供了一种数据处理与模型训练方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及深度学习技术领域。具体实现方案为:对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理,得到所述每个文本数据的置信度;基于所述每个文本数据的置信度,得到所述目标类别对应的置信度统计数据;基于所述目标类别对应的置信度统计数据,得到所述目标用户的类别特征。利用本公开实施例,可以通过用户的文本数据属于目标类型的置信度来确定用户的类别特征,可以准确地挖掘用户的意图。CN114138976ACN114138976A权利要求书1/3页1.一种数据处理方法,包括:对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理,得到所述每个文本数据的置信度;基于所述每个文本数据的置信度,得到所述目标类别对应的置信度统计数据;基于所述目标类别对应的置信度统计数据,得到所述目标用户的类别特征。2.根据权利要求1所述的方法,其中,所述对目标用户的文本数据集合中的每个文本数据进行针对目标类别的二分类处理,得到所述每个文本数据的置信度,包括:对目标用户的第一文本数据集合中的每个文本数据进行分词;基于所述每个文本数据中的每个词语的正样本率,确定所述每个文本数据中的每个词语的权重;基于所述每个文本数据中的每个词语的语义和权重对所述每个文本数据进行针对目标类别的二分类处理,确定所述每个文本数据属于所述目标类别的置信度。3.根据权利要求2所述的方法,其中,所述基于所述每个文本数据中的每个词语的语义和权重对所述每个文本数据进行针对目标类别的二分类处理,确定所述每个文本数据属于所述目标类别的置信度,包括:基于所述每个文本数据中的每个词语的语义和权重,将所述每个文本数据转换成文本句向量;将所述每个文本数据对应的文本句向量输入到目标类别对应的第一分类模型中对所述每个文本数据进行针对目标类别的二分类处理,得到所述第一分类模型输出的所述每个文本数据属于所述目标类别的置信度。4.根据权利要求1至3任一项所述的方法,其中,所述置信度统计数据包括:在所述第一文本数据集合中,文本数据的置信度的最大值、最小值、均值和方差值,以及置信度大于设定阈值的文本数据的数量。5.一种模型训练方法,包括:对第二文本数据集合中的每个文本数据进行类别标注,得到所述每个文本数据的类别信息;基于所述每个文本数据和所述每个文本数据的类别信息,对至少一个类别中的每个类别对应的第二分类模型分别进行训练,得到所述每个类别对应的第一分类模型;其中,所述第一分类模型用于对文本数据进行针对所述分类模型对应的类别的二分类处理,得到所述文本数据的置信度。6.根据权利要求5所述的方法,其中,所述对第二文本数据集合中的每个文本数据进行类别标注,得到所述每个文本数据的类别信息,包括:对第二文本数据集合中的第一部分文本数据进行类别标注,得到所述第一部分文本数据的类别信息;基于所述第一部分文本数据的类别信息,以及所述第一部分文本数据与所述第二文本数据集合中的第二部分文本数据之间的距离,对所述第二部分文本数据进行标注,得到所述第二部分文本数据的类别信息。7.根据权利要求5所述的方法,其中,所述基于所述每个文本数据和所述每个文本数据的类别信息,对至少一个类别中的每个类别对应的第二分类模型分别进行训练,包括:2CN114138976A权利要求书2/3页将所述第二文本数据集合中的每个文本数据转换成文本句向量;基于所述文本句向量和所述每个文本数据的类别信息,对至少一个类别中的每个类别对应的第二分类模型分别进行训练。8.一种数据处理装置,包括:二分类模块,用于对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理,得到所述每个文本数据的置信度;置信度统计模块,用于基于所述每个文本数据的置信度,得到所述目标类别对应的置信度统计数据;用户特征确定模块,用于基于所述目标类别对应的置信度统计数据,得到所述目标用户的类别特征
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

数据处理与模型训练方法、装置、电子设备和存储介质

文档大小:617KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用