用于挖掘PDF文件中的PDF表格的方法、设备和介质.pdf 立即下载
2023-07-24
约3.5万字
约39页
0
1.5MB
举报 版权申诉
预览加载中,请您耐心等待几秒...

用于挖掘PDF文件中的PDF表格的方法、设备和介质.pdf

202111554602.pdf

预览

免费试读已结束,剩余 34 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114201620A(43)申请公布日2022.03.18(21)申请号202111554602.8(22)申请日2021.12.17(71)申请人上海朝阳永续信息技术股份有限公司地址201203上海市浦东新区张江高科碧波路690号4号楼(72)发明人殷佳春徐正昀(74)专利代理机构北京市金杜律师事务所11256代理人庞淑敏(51)Int.Cl.G06F16/383(2019.01)G06F40/18(2020.01)权利要求书4页说明书22页附图12页(54)发明名称用于挖掘PDF文件中的PDF表格的方法、设备和介质(57)摘要本公开的实施例涉及用于挖掘PDF文件中的PDF表格的方法和设备和介质,其中方法包括针对PDF表格设置目标关键字以及与所述目标关键字相关联的配置信息;解析所述PDF文件,以便获取所述PDF文件中的文本信息;基于与所述配置信息和所获取的文本信息,确定第一文本信息;基于所述目标关键字在所述第一文本信息中的预定义位置以及所述第一文本信息,确定第二文本信息;基于所提取的PDF表格的特征,验证所述第二文本信息是否属于所述PDF表格的特征行,以便确定所述PDF表格的特征行;基于所述目标关键字和所述第一文本信息,确定所述PDF表格的特征列;以及根据所确定的特征行和特征列获取所述PDF表格的单元格的文本信息。CN114201620ACN114201620A权利要求书1/4页1.一种用于挖掘PDF文件中的PDF表格的方法,包括:针对PDF表格设置目标关键字以及与所述目标关键字相关联的配置信息;解析所述PDF文件,以便获取所述PDF文件中的文本信息;基于与所述配置信息和所获取的文本信息,确定第一文本信息;基于所述目标关键字在所述第一文本信息中的预定义位置以及所述第一文本信息,确定第二文本信息;基于所提取的PDF表格的特征,验证所述第二文本信息是否属于所述PDF表格的特征行,以便确定所述PDF表格的特征行;基于所述目标关键字和所述第一文本信息,确定所述PDF表格的特征列;以及根据所确定的特征行和特征列获取所述PDF表格的单元格的文本信息。2.根据权利要求1所述的方法,其中验证所述第二文本信息是否属于所述PDF表格的特征行包括:如果所述第二文本信息符合所述PDF表格的特征,则确定所述第二文本信息属于所述PDF表格的特征行;以及如果所述第二文本信息不符合所述PDF表格的特征,则调整所述目标关键字在所述第一文本信息中的预定义位置,以便重新确定第二文本信息。3.根据权利要求2所述的方法,其中确定第二文本信息包括:基于所述目标关键字在所述第一文本信息中的预定义位置,在所述PDF文件的像素坐标系中确定所述目标关键字的右横坐标、上纵坐标以及下纵坐标;在所述第一文本信息中,确定满足以下各项中的至少一项的文本信息为候选文本信息:处于所述目标关键字的右横坐标相对右方;具有与所述目标关键字的上纵坐标相差第一阈值的上纵坐标;具有与所述目标关键字的下纵坐标相差第一阈值的下纵坐标;以及在所确定的候选文本信息中,提取与所述目标关键字处于相同页且与所述目标关键字不同的文本信息为第二文本信息。4.根据权利要求2所述的方法,其中确定第二文本信息包括:基于所述目标关键字在所述第一文本信息中的预定义位置,在所述PDF文件的像素坐标系中确定所述目标关键字的左横坐标、右横坐标以及下纵坐标;在所述第一文本信息中,确定满足以下各项中的至少一项的文本信息为候选文本信息:处于所述目标关键字的下纵坐标的相对下方;具有与所述目标关键字的下纵坐标相差第二阈值的上纵坐标;具有与所述目标关键字的左横坐标至右横坐标的区间有交集的左横坐标、右横坐标;在所确定的候选文本信息中,提取与所述目标关键字处于相同页、与所述目标关键字不同、且不符合PDF表格的特征的文本信息为中间字符;以及基于所提取的中间字符,确定第二文本信息。5.根据权利要求2所述的方法,其中确定第二文本信息包括:基于所述目标关键字在所述第一文本信息中的预定义位置,在所述PDF文件的像素坐2CN114201620A权利要求书2/4页标系中确定所述目标关键字的长度、宽度、下纵坐标和右横坐标;在所述第一文本信息中,确定满足以下各项中的至少一项的文本信息为候选文本信息:处于所述目标关键字的下纵坐标处于相对下方;处于所述目标关键字的右横坐标处于相对右方;具有处于由与所述目标关键字的宽度的第三阈值倍数和与所述目标关键字的长度的第四阈值倍数构成的范围内的横坐标、纵坐标;以及在所确定的候选文本信息中,提取与所述目标关键字处于相同页、与所述目标关键字不同且满足所述PDF表格的特征的文本信息为第二文本信息。6.根据权利要求2所述的方法,其中确定第二文本信息包括:基于所述目标
查看更多
茂学****23
实名认证
内容提供者
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

用于挖掘PDF文件中的PDF表格的方法、设备和介质

文档大小:1.5MB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用