专利 一种多方向文本比对方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111231025.9 (22)申请日 2021.10.2 2 (71)申请人苏州方正璞华信息技术有限公司地址 210000 江苏省苏州市中国(江苏)自由贸易试验区苏州片区苏州工业园区集贤街88号1#楼的第4层40 6、 407室 (72)发明人吕松南　罗诚　 (74)专利代理机构武汉蓝宝石专利代理事务所 (特殊普通合伙) 42242 代理人范三霞 (51)Int.Cl. G06F 30/10(2020.01) G06F 30/27(2020.01) G06F 40/109(2020.01) G06F 40/189(2020.01)G06K 9/62(2022.01) G06N 20/00(2019.01) G06F 113/20(2020.01) (54)发明名称一种多方向文本比对方法 (57)摘要本发明提供一种多方向文本比对方法，包括：将包装设计图导出为PDF格式，并解析出文本内容和对应的位置信息；将PDF解析出来的文本按照间隔拆分文本，并判断拆分后的文本是否一致；利用大量中文语料计算2－gram词频，计算文本正序和反序的概率，并以此作为依据判断文本是否为逆序；根据位置坐标对所有文本分块处理，根据文本正反序判断文本块的方向，然后对文本块内的文本排序并合并；将PDF文本内容与审查用标准文本内容进行比对，匹配相似行，并对相似行差异进行标注。处理结果可以大大降低解析文本和实际文本的结构化差异，提高解析文本和实际文本的检测精度，降低人工干预的工作量，从而降低包装设计成本和精度。权利要求书1页说明书5页附图3页 CN 114048524 A 2022.02.15 CN 114048524 A 1.一种多方向文本比对方法，其特征在于，其包括以下步骤： S10：将包装设计图导出为PDF格式，并从导出的PDF文件中解析出文本内容和对应的位置信息； S20：将PDF解析出来的文本按照间隔拆分文本，并判断拆分后的文本是否一致，从而判断文本是否重叠； S30：利用大量中文语料计算2－gram词频，计算文本正序和反序的概率，并以此作为依据判断文本是否为逆序； S40：根据位置坐标对所有文本分块处理，根据文本正反序判断文本块的方向，然后对文本块内的文本排序并合并； S50：将PDF文本内容与审查用标准文本内容进行比对，匹配相似行，并对相似行差异进行标注，在处理后作为最终结果。 2.根据权利要求1所述的一种多方向文本比对方法，其特征在于，所述步骤S20中，将 PDF解析出来的文本进行拆分时，间隔拆分为两个文本，将拆分的两个文本进行比对，若拆分出来的两个文本一致，则原文本为重叠文本，取拆分后的任意文本作为新的文本替换原文本进行后续操作；若拆分出来的两个文本不一致，则说明原文本不是重叠文本，此时不进行操作，以原文本进行后续操作。 3.根据权利要求2所述的一种多方向文本比对方法，其特征在于，在步骤S30 中，将步骤 S20中的输出文本作为步骤S 30的输入文本，去除其中的纯数字文本以及文本中的英文字母部分，然后将文本进行反序处理，获得正反两种语序的文本，根据计算好的2 －gram模型，对正反语序的两种文本分别计算概率值，其中，概率高的为正确文本顺序，输出结果包括正确语序的文本、原文本的正反序布尔值以及文本位置坐标；其中，文本正反序布尔值中，正序为0，反序为1。 4.根据权利要求3所述的一种多方向文本比对方法，其特征在于，在步骤S40 中，将步骤 S30中输出的信息作为输入，根据文本的坐标位置计算文本之间的距离，设定一个阈值作为聚类的范围，距离在阈值内的文本聚为一类，作为一个文本块。 5.根据权利要求4所述的一种多方向文本比对方法，其特征在于，统计文本块中的文本正反序布尔值的数量，定义：反序多的情况，则文本块整体为反序，其中的所有文本都为反序，将原本为正序的文本做反序处理；正序多的情况则文本块整体为正序，其中所有的文本都为正序，将原本反序的文本做正序处理。 6.根据权利要求5所述的一种多方向文本比对方法，其特征在于，根据文本块中文本的位置坐标对文本进行排序，文本块为正序则采用升序，文本块为反序则采用降序；再根据位置坐标判断文本间的位置关系为同行还是同列，以同行优先于同列的顺序进行文本拼接，并将其作为新的文本内容，且计算文本块的最大包含矩形的坐标为新的位置坐标。 7.根据权利要求1所述的一种多方向文本比对方法，其特征在于，在步骤S50 中，处理后的文本与审查用标准文本进行文本比对时，逐条计算两组文本间的相似度进行组合，对每对文本进行差异提取，判断文本之间的差异类型，并输出最终结果。权　利　要　求　书 1/1 页 2 CN 114048524 A 2一种多方向文本比对方法技术领域 [0001]本发明涉及图像处理领域，更具体地，本发明涉及一种基于机器学习的文本方向矫正和文本比对方法。背景技术 [0002]在包装设计领域中，为了保证包装设计图中的文字信息的准确，通常会需要在设计图定稿前对其中的文本内容进行审查，尤其是各种许可证编号等重要信息，如果出现错误将造成不可逆的损失。 [0003]常规文本错误比对大多是以人工的方式完成，但是人工方法不仅人工和时间成本较大，而且容易出现漏检和误检等问题。由于印刷设计图可以通过解析获得文本内容，也有一些厂家会使用机器学习的方法进行比对，在其他印刷设计领域是可以达到需求的效果的。但是，包装设计图中会对包装的拆解图进行设计，这是会出现较多旋转成不同角度的文本贴图，在对设计图文件进行解析的时候会导致文本出现逆序、分行、重叠等问题，直接比对会导致大量文本无法被比对成功，影响比对结果。发明内容 [0004]本发明针对现有技术中存在的技术问题，提供一种多方向文本比对方法，基于利用机器学习对文本正反序进行判别，利用2 －gram计算文本正反序的概率作为判别标准，结合正反序结果和文本坐标分布对分行、重叠文本进行合并或处理。处理结果可以大大降低解析文本和实际文本的结构化差异，提高解析文本和实际文本的检测精度，降低人工干预的工作量，从而降低包装设计成本和精度。 [0005]本发明解决上述技术问题的技术方案如下：一种多方向文本比对方法， [0006]其包括以下步骤： [0007]S10：将包装设计图导出为PDF格式，并从导出的PDF文件中解析出文本内容和对应的位置信息； [0008]S20：将PDF解析出来的文本按照间隔拆分文本，并判断拆分后的文本是否一致，从而判断文本是否重叠； [0009]S30：利用大量中文语料计算2－gram词频，计算文本正序和反序的概率，并以此作为依据判断文本是否为逆序； [0010]S40：根据位置坐标对所有文本分块处理，根据文本正反序判断文本块的方向，然后对文本块内的文本排序并合并； [0011]S50：将PDF文本内容与审查用标准文本内容进行比对，匹配相似行，并对相似行差异进行标注，在处理后作为最终结果。 [0012]在上述技术方案的基础上，本发明还可以作出如下改进。 [0013]可选的，所述步骤S20中，将PDF解析出来的文本进行拆分时，间隔拆分为两个文本，将拆分的两个文本进行比对，若拆分出来的两个文本一致，则原文本为重叠文本，取拆说　明　书 1/5 页 3 CN 114048524 A 3

专利 一种多方向文本比对方法

专利一种多方向文本比对方法