




如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114201620A(43)申请公布日2022.03.18(21)申请号202111554602.8(22)申请日2021.12.17(71)申请人上海朝阳永续信息技术股份有限公司地址201203上海市浦东新区张江高科碧波路690号4号楼(72)发明人殷佳春徐正昀(74)专利代理机构北京市金杜律师事务所11256代理人庞淑敏(51)Int.Cl.G06F16/383(2019.01)G06F40/18(2020.01)权利要求书4页说明书22页附图12页(54)发明名称用于挖掘PDF文件中的PDF表格的方法、设备和介质(57)摘要本公开的实施例涉及用于挖掘PDF文件中的PDF表格的方法和设备和介质,其中方法包括针对PDF表格设置目标关键字以及与所述目标关键字相关联的配置信息;解析所述PDF文件,以便获取所述PDF文件中的文本信息;基于与所述配置信息和所获取的文本信息,确定第一文本信息;基于所述目标关键字在所述第一文本信息中的预定义位置以及所述第一文本信息,确定第二文本信息;基于所提取的PDF表格的特征,验证所述第二文本信息是否属于所述PDF表格的特征行,以便确定所述PDF表格的特征行;基于所述目标关键字和所述第一文本信息,确定所述PDF表格的特征列;以及根据所确定的特征行和特征列获取所述PDF表格的单元格的文本信息。CN114201620ACN114201620A权利要求书1/4页1.一种用于挖掘PDF文件中的PDF表格的方法,包括:针对PDF表格设置目标关键字以及与所述目标关键字相关联的配置信息;解析所述PDF文件,以便获取所述PDF文件中的文本信息;基于与所述配置信息和所获取的文本信息,确定第一文本信息;基于所述目标关键字在所述第一文本信息中的预定义位置以及所述第一文本信息,确定第二文本信息;基于所提取的PDF表格的特征,验证所述第二文本信息是否属于所述PDF表格的特征行,以便确定所述PDF表格的特征行;基于所述目标关键字和所述第一文本信息,确定所述PDF表格的特征列;以及根据所确定的特征行和特征列获取所述PDF表格的单元格的文本信息。2.根据权利要求1所述的方法,其中验证所述第二文本信息是否属于所述PDF表格的特征行包括:如果所述第二文本信息符合所述PDF表格的特征,则确定所述第二文本信息属于所述PDF表格的特征行;以及如果所述第二文本信息不符合所述PDF表格的特征,则调整所述目标关键字在所述第一文本信息中的预定义位置,以便重新确定第二文本信息。3.根据权利要求2所述的方法,其中确定第二文本信息包括:基于所述目标关键字在所述第一文本信息中的预定义位置,在所述PDF文件的像素坐标系中确定所述目标关键字的右横坐标、上纵坐标以及下纵坐标;在所述第一文本信息中,确定满足以下各项中的至少一项的文本信息为候选文本信息:处于所述目标关键字的右横坐标相对右方;具有与所述目标关键字的上纵坐标相差第一阈值的上纵坐标;具有与所述目标关键字的下纵坐标相差第一阈值的下纵坐标;以及在所确定的候选文本信息中,提取与所述目标关键字处于相同页且与所述目标关键字不同的文本信息为第二文本信息。4.根据权利要求2所述的方法,其中确定第二文本信息包括:基于所述目标关键字在所述第一文本信息中的预定义位置,在所述PDF文件的像素坐标系中确定所述目标关键字的左横坐标、右横坐标以及下纵坐标;在所述第一文本信息中,确定满足以下各项中的至少一项的文本信息为候选文本信息:处于所述目标关键字的下纵坐标的相对下方;具有与所述目标关键字的下纵坐标相差第二阈值的上纵坐标;具有与所述目标关键字的左横坐标至右横坐标的区间有交集的左横坐标、右横坐标;在所确定的候选文本信息中,提取与所述目标关键字处于相同页、与所述目标关键字不同、且不符合PDF表格的特征的文本信息为中间字符;以及基于所提取的中间字符,确定第二文本信息。5.根据权利要求2所述的方法,其中确定第二文本信息包括:基于所述目标关键字在所述第一文本信息中的预定义位置,在所述PDF文件的像素坐2CN114201620A权利要求书2/4页标系中确定所述目标关键字的长度、宽度、下纵坐标和右横坐标;在所述第一文本信息中,确定满足以下各项中的至少一项的文本信息为候选文本信息:处于所述目标关键字的下纵坐标处于相对下方;处于所述目标关键字的右横坐标处于相对右方;具有处于由与所述目标关键字的宽度的第三阈值倍数和与所述目标关键字的长度的第四阈值倍数构成的范围内的横坐标、纵坐标;以及在所确定的候选文本信息中,提取与所述目标关键字处于相同页、与所述目标关键字不同且满足所述PDF表格的特征的文本信息为第二文本信息。6.根据权利要求2所述的方法,其中确定第二文本信息包括:基于所述目标

茂学****23
实名认证
内容提供者


最近下载
毕业论文-电子商务对现代企业管理的影响.doc
2024年安全员之江苏省C1证(机械安全员)模拟试题(含答案).pdf
2024年安全员之江苏省C1证(机械安全员)模拟试题含答案.pdf
安全员之江苏省C1证(机械安全员)考试必须掌握的典型题.pdf
2024年安全员之江苏省C1证(机械安全员)题库及精品答案.pdf
2024年安全员之江苏省C1证(机械安全员)考试题库.pdf
2024年安全员之江苏省C1证(机械安全员)题库及.pdf
2024年安全员之江苏省C1证(机械安全员)考试题库.pdf
2024年安全员之江苏省C1证(机械安全员)考试题库.pdf
2024年安全员之江苏省C1证(机械安全员)题库与答案.pdf