金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111231025.9 (22)申请日 2021.10.2 2 (71)申请人 苏州方正 璞华信息技 术有限公司 地址 210000 江苏省苏州市中国(江苏)自 由贸易试验区苏州片区苏州工业园区 集贤街88号1#楼的第4层40 6、 407室 (72)发明人 吕松南 罗诚  (74)专利代理 机构 武汉蓝宝石专利代理事务所 (特殊普通 合伙) 42242 代理人 范三霞 (51)Int.Cl. G06F 30/10(2020.01) G06F 30/27(2020.01) G06F 40/109(2020.01) G06F 40/189(2020.01)G06K 9/62(2022.01) G06N 20/00(2019.01) G06F 113/20(2020.01) (54)发明名称 一种多方向文本比对方法 (57)摘要 本发明提供一种多方向文本比对方法, 包 括: 将包装设计图导出为PDF格式, 并解析出文本 内容和对应的位置信息; 将PDF解析出来的文本 按照间隔拆分文本, 并判断拆分后的文本是否一 致; 利用大量中文语料计算2-gram词频, 计算文 本正序和反序的概率, 并以此作为依据判断文本 是否为逆序; 根据位置坐标对所有文本分块处 理, 根据文本正反序判断文本块的方向, 然后对 文本块内的文本排序并合并; 将PDF文本内容与 审查用标准文本内容进行比对, 匹配相似行, 并 对相似行差异进行标注。 处理结果可以大大降低 解析文本和实际文本的结构化差异, 提高解析文 本和实际文本的检测精度, 降低人工干预的工作 量, 从而降低包 装设计成本和精度。 权利要求书1页 说明书5页 附图3页 CN 114048524 A 2022.02.15 CN 114048524 A 1.一种多方向文本比对方法, 其特 征在于, 其包括以下步骤: S10: 将包装设计图导出为PDF格式, 并从导出的PDF文件中解析出文本内容和对应的位 置信息; S20: 将PDF解析出来的文本按照间隔拆分文本, 并判断拆分后的文本是否一致, 从而判 断文本是否 重叠; S30: 利用大量 中文语料计算2-gram词频, 计算文本正序和反序的概率, 并以此作 为依 据判断文本是否为逆序; S40: 根据位置坐标对所有文本分块处理, 根据文本正反序判断文本块的方向, 然后对 文本块内的文本排序并合并; S50: 将PDF文本内容与审查用标准文本内容进行比对, 匹配相似行, 并对相似行差异进 行标注, 在处 理后作为 最终结果。 2.根据权利要求1所述的一种多方向文本比对方法, 其特征在于, 所述步骤S20中, 将 PDF解析出来的文本进行拆分时, 间隔拆分为两个文本, 将拆分的两个文本进行比对, 若拆 分出来的两个文本一致, 则原文本为重叠文本, 取拆分后的任意文本作为新的文本替换原 文本进行后续操作; 若拆分出来的两个文本不一致, 则说明原文本不是重叠文本, 此时不进 行操作, 以原文本进行后续操作。 3.根据权利要求2所述的一种 多方向文本比对方法, 其特征在于, 在步骤S30 中, 将步骤 S20中的输出文本作为步骤S 30的输入文本, 去除其中的纯数字文本以及 文本中的英文字母 部分, 然后将文本进 行反序处理, 获得正反两种语序的文本, 根据计算好的2 -gram模 型, 对 正反语序的两种文本 分别计算概率值, 其中, 概率高的为正确文本顺序, 输出结果包括正确 语序的文本、 原文本的正反序布尔值以及文本位置坐标; 其中, 文本正反序布尔值中, 正序 为0, 反序为1。 4.根据权利要求3所述的一种 多方向文本比对方法, 其特征在于, 在步骤S40 中, 将步骤 S30中输出的信息作为输入, 根据文本的坐标位置计算文本之间的距离, 设定一个阈值作为 聚类的范围, 距离在阈值内的文本聚为 一类, 作为 一个文本块。 5.根据权利要求4所述的一种 多方向文本比对方法, 其特征在于, 统计文本块中的文本 正反序布尔值的数量, 定义: 反序多的情况, 则文本块整体为反序, 其中的所有文本都为反 序, 将原本为正序的文本做反序处理; 正序多的情况则文本块整体为正序, 其中所有的文本 都为正序, 将原本反序的文本做正序处 理。 6.根据权利要求5所述的一种 多方向文本比对方法, 其特征在于, 根据文本块中文本的 位置坐标对文本进 行排序, 文本块为正序则采用升序, 文本块为反序则采用降序; 再根据位 置坐标判断文本间的位置关系为同行还是同列, 以同行优先于同列的顺序进行文本拼接, 并将其作为 新的文本内容, 且计算文本块的最大包 含矩形的坐标为 新的位置坐标。 7.根据权利要求1所述的一种 多方向文本比对方法, 其特征在于, 在步骤S50 中, 处理后 的文本与审查用标准文本进行文本比对时, 逐条计算两组文本间的相似度进行组合, 对每 对文本进行差异提取, 判断文本之间的差异类型, 并输出最终结果。权 利 要 求 书 1/1 页 2 CN 114048524 A 2一种多方向文本比对方 法 技术领域 [0001]本发明涉及图像处理领域, 更具体地, 本发明涉及一种基于机器学习的文本方向 矫正和文本比对方法。 背景技术 [0002]在包装设计领域中, 为了保证包装设计图中的文字信息 的准确, 通常会需要在设 计图定稿前对其中的文本内容进行审查, 尤其是各种许可证编号等重要信息, 如果出现错 误将造成不可逆的损失。 [0003]常规文本错误比对大多是以人工的方式完成, 但是人工方法不仅人工和时间成本 较大, 而且容易出现漏检和误检等问题。 由于印刷设计图可以通过解析获得文本内容, 也有 一些厂家会使用机器学习的方法进行比对, 在其他印刷设计领域是可以达到需求的效果 的。 但是, 包装设计图中会对包装的拆解图进行设计, 这是会 出现较多旋转 成不同角度的文 本贴图, 在对设计图文件进行解析的时候会导致文本出现逆序、 分行、 重叠等问题, 直接比 对会导致大量文本无法被比对成功, 影响比对结果。 发明内容 [0004]本发明针对现有技术中存在的技术问题, 提供一种多方向文本比对方法, 基于利 用机器学习对文本正反序进 行判别, 利用2 -gram计算文本正反序的概率作为判别标准, 结 合正反序结果和文本坐标分布对分行、 重叠文本进行合并或处理。 处理结果可以大大降低 解析文本和实际文本的结构化差异, 提高解析文本和实际文本的检测精度, 降低人工干预 的工作量, 从而降低包 装设计成本和精度。 [0005]本发明解决上述 技术问题的技 术方案如下: 一种多方向文本比对方法, [0006]其包括以下步骤: [0007]S10: 将包装设计图导出为PDF格式, 并从导出的PDF文件中解析出文本内容和对应 的位置信息; [0008]S20: 将PDF解析出来的文本按照间隔拆分文本, 并判断拆分后的文本是否一致, 从 而判断文本是否 重叠; [0009]S30: 利用大量中文语料计算2-gram词频, 计算文本正序和反序的概率, 并以此作 为依据判断文本是否为逆序; [0010]S40: 根据位置坐标对所有文本分块处理, 根据文本正反序判断文本块的方向, 然 后对文本块内的文本排序并合并; [0011]S50: 将PDF文本内容与审查用标准文本内容进行比对, 匹配相似行, 并对相似行差 异进行标注, 在处 理后作为 最终结果。 [0012]在上述技术方案的基础上, 本发明还可以作出如下改进。 [0013]可选的, 所述步骤S20中, 将PDF解析出来的文本进行拆分时, 间隔拆分为两个文 本, 将拆分的两个文本进行比对, 若拆分出来的两个文本一致, 则原文本为重叠文本, 取拆说 明 书 1/5 页 3 CN 114048524 A 3

.PDF文档 专利 一种多方向文本比对方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多方向文本比对方法 第 1 页 专利 一种多方向文本比对方法 第 2 页 专利 一种多方向文本比对方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:42:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。