CN2023118690068一种基于数据集的数据分类分级方法,装置,设备及介质.pdf 立即下载
2024-08-17
约2.1万字
约22页
0
2.6MB
举报 版权申诉
预览加载中,请您耐心等待几秒...

CN2023118690068一种基于数据集的数据分类分级方法,装置,设备及介质.pdf

CN2023118690068一种基于数据集的数据分类分级方法,装置,设备及介质.pdf

预览

免费试读已结束,剩余 17 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN117951174A
(43)申请公布日2024.04.30
(21)申请号202311869006.8G06F18/241(2023.01)

(22)申请日2023.12.29

(71)申请人杭州数圭通科技有限公司
地址311118浙江省杭州市余杭区鸬鸟镇
前庄村庙横头8号1幢3楼301室A0020
(自主申报)
(72)发明人田平袁征
(74)专利代理机构北京集佳知识产权代理有限
公司11227
专利代理师梁笑
(51)Int.Cl.
G06F16/2455(2019.01)
G06F16/248(2019.01)
G06F16/22(2019.01)
G06F16/28(2019.01)
权利要求书3页说明书13页附图5页
(54)发明名称
一种基于数据集的数据分类分级方法、装
置、设备及介质
(57)摘要
本申请公开了一种基于数据集的数据分类
分级方法、装置、设备及介质,涉及数据安全合规
技术领域,包括:获取待分类分级数据中的所有
数据字段得到待分类分级数据字段,并基于待分
类分级数据字段创建数据集得到目标数据集;识
别目标数据集的数据结构得到数据集结构;对目
标数据集中的数据进行随机抽样,并获取目标数
据集中静态数据集对应的数据字典;基于数据字
典和样本数据对目标数据集与数据集分类分级
识别规则中的所有标准字段进行匹配以建立映
射关系;利用映射关系和识别规则对目标数据集
进行标准化匹配评估得到自评估结果,以生成数
据评估报告。本申请能够对数据进行动态分类分
级,帮助数据拥有方合理规避数据流动风险,从
而促进数据合规流动。
CN117951174A
CN117951174A权利要求书1/3页

1.一种基于数据集的数据分类分级方法,其特征在于,包括:
确定包含动态数据和静态数据的待分类分级数据;
获取所述待分类分级数据中的所有数据字段,得到待分类分级数据字段,并基于所有
所述待分类分级数据字段创建数据集,得到目标数据集;所述目标数据集中包括动态数据
集和静态数据集;
识别所述目标数据集的数据结构,得到包括数据库、数据表及数据字段的数据集结构;
对所述目标数据集中的数据进行随机抽样,得到样本数据,并获取所述目标数据集中
的所述静态数据集对应的数据字典;所述数据字典内包括所述静态数据集对应的所述数据
集结构中的所有数据库、数据表及数据字段的描述信息;
基于所述数据字典和所述样本数据对所述目标数据集与数据集分类分级识别规则中
包含的所有标准字段进行逐一匹配,以建立所述目标数据集与所述标准字段的映射关系;
利用所述映射关系和所述数据集分类分级识别规则分别对所述目标数据集进行标准
化匹配评估,以得到分级类型为核心数据、重要数据或一般数据的自评估结果,并基于所述
自评估结果生成具有法律与司法效应的数据评估报告并将所述数据评估报告发送至数据
拥有方。
2.根据权利要求1所述的基于数据集的数据分类分级方法,其特征在于,所述基于所述
数据字典和所述样本数据对所述目标数据集与数据集分类分级识别规则中包含的所有标
准字段进行逐一匹配,以建立所述目标数据集与所述标准字段的映射关系,包括:
利用NLP算法、大语言模型及加权算法并基于所述数据字典和所述样本数据对所述目
标数据集中的数据字段与数据集分类分级识别规则中包含的所有标准字段进行逐一匹配,
以建立所述目标数据集与所述标准字段的映射关系。
3.根据权利要求1所述的基于数据集的数据分类分级方法,其特征在于,分级类型为所
述重要数据和所述核心数据的判定条件为所述目标数据集中存在位于所述数据集分类分
级识别规则的特定字段组合中的所有数据字段,且所述目标数据集的数据量达到预设数量
阈值。
4.根据权利要求1所述的基于数据集的数据分类分级方法,其特征在于,所述基于所有
所述待分类分级数据字段创建数据集,得到目标数据集,包括:
基于所有所述待分类分级数据字段创建数据集,得到初始数据集;
分别从所述初始数据集中的不同数据表中随机获取数据字段,得到多个随机获取字
段,并对所有所述随机获取字段进行排列组合,以形成动态数据集;
相应的,所述将所述数据评估报告发送至数据拥有方之后,还包括:
利用所述映射关系分别对所述动态数据集和所述静态数据集中的所有数据和敏感数
据识别规则进行逐一匹配,以识别所述动态数据集和所述静态数据集中的敏感数据;
对所述敏感数据进行标记得到标记后数据,并对所述标记后数据进行合规化处理,以
得到包含脱敏后数据的脱敏后动态数据集和脱敏后静态数据集;
分别将所述脱敏后动态数据集和所述脱敏后静态数据集导出为目标文件类型的文件,
得到第一文件,并将所述第一文件发送至数据需求方。
5.根据权利要求4所述的基于数据集的数据分类
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

CN2023118690068一种基于数据集的数据分类分级方法,装置,设备及介质

文档大小:2.6MB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用