




如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
(19)国家知识产权局 (12)发明专利申请 (10)申请公布号CN117951174A (43)申请公布日2024.04.30 (21)申请号202311869006.8G06F18/241(2023.01) (22)申请日2023.12.29 (71)申请人杭州数圭通科技有限公司 地址311118浙江省杭州市余杭区鸬鸟镇 前庄村庙横头8号1幢3楼301室A0020 (自主申报) (72)发明人田平袁征 (74)专利代理机构北京集佳知识产权代理有限 公司11227 专利代理师梁笑 (51)Int.Cl. G06F16/2455(2019.01) G06F16/248(2019.01) G06F16/22(2019.01) G06F16/28(2019.01) 权利要求书3页说明书13页附图5页 (54)发明名称 一种基于数据集的数据分类分级方法、装 置、设备及介质 (57)摘要 本申请公开了一种基于数据集的数据分类 分级方法、装置、设备及介质,涉及数据安全合规 技术领域,包括:获取待分类分级数据中的所有 数据字段得到待分类分级数据字段,并基于待分 类分级数据字段创建数据集得到目标数据集;识 别目标数据集的数据结构得到数据集结构;对目 标数据集中的数据进行随机抽样,并获取目标数 据集中静态数据集对应的数据字典;基于数据字 典和样本数据对目标数据集与数据集分类分级 识别规则中的所有标准字段进行匹配以建立映 射关系;利用映射关系和识别规则对目标数据集 进行标准化匹配评估得到自评估结果,以生成数 据评估报告。本申请能够对数据进行动态分类分 级,帮助数据拥有方合理规避数据流动风险,从 而促进数据合规流动。 CN117951174A CN117951174A权利要求书1/3页 1.一种基于数据集的数据分类分级方法,其特征在于,包括: 确定包含动态数据和静态数据的待分类分级数据; 获取所述待分类分级数据中的所有数据字段,得到待分类分级数据字段,并基于所有 所述待分类分级数据字段创建数据集,得到目标数据集;所述目标数据集中包括动态数据 集和静态数据集; 识别所述目标数据集的数据结构,得到包括数据库、数据表及数据字段的数据集结构; 对所述目标数据集中的数据进行随机抽样,得到样本数据,并获取所述目标数据集中 的所述静态数据集对应的数据字典;所述数据字典内包括所述静态数据集对应的所述数据 集结构中的所有数据库、数据表及数据字段的描述信息; 基于所述数据字典和所述样本数据对所述目标数据集与数据集分类分级识别规则中 包含的所有标准字段进行逐一匹配,以建立所述目标数据集与所述标准字段的映射关系; 利用所述映射关系和所述数据集分类分级识别规则分别对所述目标数据集进行标准 化匹配评估,以得到分级类型为核心数据、重要数据或一般数据的自评估结果,并基于所述 自评估结果生成具有法律与司法效应的数据评估报告并将所述数据评估报告发送至数据 拥有方。 2.根据权利要求1所述的基于数据集的数据分类分级方法,其特征在于,所述基于所述 数据字典和所述样本数据对所述目标数据集与数据集分类分级识别规则中包含的所有标 准字段进行逐一匹配,以建立所述目标数据集与所述标准字段的映射关系,包括: 利用NLP算法、大语言模型及加权算法并基于所述数据字典和所述样本数据对所述目 标数据集中的数据字段与数据集分类分级识别规则中包含的所有标准字段进行逐一匹配, 以建立所述目标数据集与所述标准字段的映射关系。 3.根据权利要求1所述的基于数据集的数据分类分级方法,其特征在于,分级类型为所 述重要数据和所述核心数据的判定条件为所述目标数据集中存在位于所述数据集分类分 级识别规则的特定字段组合中的所有数据字段,且所述目标数据集的数据量达到预设数量 阈值。 4.根据权利要求1所述的基于数据集的数据分类分级方法,其特征在于,所述基于所有 所述待分类分级数据字段创建数据集,得到目标数据集,包括: 基于所有所述待分类分级数据字段创建数据集,得到初始数据集; 分别从所述初始数据集中的不同数据表中随机获取数据字段,得到多个随机获取字 段,并对所有所述随机获取字段进行排列组合,以形成动态数据集; 相应的,所述将所述数据评估报告发送至数据拥有方之后,还包括: 利用所述映射关系分别对所述动态数据集和所述静态数据集中的所有数据和敏感数 据识别规则进行逐一匹配,以识别所述动态数据集和所述静态数据集中的敏感数据; 对所述敏感数据进行标记得到标记后数据,并对所述标记后数据进行合规化处理,以 得到包含脱敏后数据的脱敏后动态数据集和脱敏后静态数据集; 分别将所述脱敏后动态数据集和所述脱敏后静态数据集导出为目标文件类型的文件, 得到第一文件,并将所述第一文件发送至数据需求方。 5.根据权利要求4所述的基于数据集的数据分类
Ta的资源

2020110359336低致栓颅内血管编织支架及其处理方法

2020110303186一种钙钛矿量子点聚合物粒子的制备方法

2020110124078基于精准医疗的大数据分析系统及方法

2020109651910 应用近红外谷物分析仪建立油莎豆中粗脂肪含量的检测方法

2020109529321一种铝合金用无氟无氯环保粒状精炼剂及其制备和应用

2020108899336一种新能源商用车总装车间线路布局

2020108620703城市燃气管网多输差协同计算模型及应用方法

2020108207369一种微交联阳离子型聚丙烯酰胺絮凝剂及其制备方法与应用

2020108035131一种基于全站仪的激光雷达外部参数标定方法

2020107682859一种内燃机等离子节油器阴阳极的制备方法

13****40
实名认证
内容提供者


最近下载