专利基于图像和文本信息融合的文字识别方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210071342.7 (22)申请日 2022.01.21 (71)申请人上海易康源医疗健康科技有限公司地址 200120 上海市浦东新区中国(上海) 自由贸易试验区临港新片区新杨公路 860号10幢 (72)发明人曾祥云　朱姬渊　 (74)专利代理机构上海硕力知识产权代理事务所(普通合伙) 31251 专利代理师王法男 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/10(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于图像和文本信息融合的文字识别方法及系统 (57)摘要本申请涉及一种基于图像和文本信息融合的文字识别方法及系统，包括获取待处理图像，并基于预设的文本识别网络对所述待处理图进行特征抽取并获取当前图像特征；根据所述当前图像特征和预先标注的人工标注标签，生成CTC 损失，并基于所述CTC损失对预先设置的特征抽取模型进行更新；根据所述当前图像特征进行文本标签预测，并生成当前文本标签；根据所述当前文本标签对进行预先设置的对比度损失模型的训练更新，并获取文本相似结果。本发明实现融合图片和文本信息而进行文字识别，进而通过加载知识库中的文本信息，帮助提升文字识别的准确率。权利要求书2页说明书5页附图2页 CN 114445809 A 2022.05.06 CN 114445809 A 1.一种基于图像和文本信息融合的文字识别方法，其特征在于，所述方法包括：步骤S100：获取待处理图像，并基于预设的文本识别网络对所述待处理图进行特征抽取并获取当前图像特征；步骤S200：根据所述当前图像特征和预先标注的人工标注标签，生成CTC损失，并基于所述CTC损失对预先设置的特征抽取模型进行更新；步骤S300：根据所述当前图像特征进行文本标签预测，并生成当前文本标签；步骤S400：根据所述当前文本标签对进行预先设置的对比度损失模型的训练更新，并获取文本相似结果。 2.根据权利要求1所述的基于图像和文本信息融合的文字识别方法，其特征在于，步骤 S400：根据所述当前文本标签对进行预先设置的对比度损失模型的训练更新，并获取文本相似结果，具体包括：步骤S410：基于预设的中文字形相似度模型根据所述当前文本标签获取与所述当前文本标签相似度达到预设特定值的特定数量的当前待挑选文字；步骤S420：分别计算特定数量的所述当前待挑选文字与所述人工标注标签y之间，以及特定数量的所述当前待挑选文字与所述当前文本标签之间的对比度损失，并获取对比度损失值；步骤S430：根据所述对比度损失值进行预先设置的对比度损失模型的训练更新，并获取文本相似结果。 3.根据权利要求2所述的基于图像和文本信息融合的文字识别方法，其特征在于，所述特定数量为至少10 0个。 4.根据权利要求1 ‑3任一项所述的基于图像和文本信息融合的文字识别方法，其特征在于，步骤S300：根据所述当前图像特征进行文本标签预测，并生成当前文本标签，具体包括：对所述当前图像特征采用Softmx进行文本标签预测，并生成当前文本标签。 5.根据权利要求1 ‑3任一项所述的基于图像和文本信息融合的文字识别方法，其特征在于，步骤S100：获取待处理图像，并基于预设的文本识别网络对所述待处理图进行特征抽取并获取当前图像特征，具体包括：获取待处理图像，并基于预设的crnn网络对所述待处理图进行特征抽取并获取当前图像特征。 6.一种基于图像和文本信息融合的文字识别系统，其特征在于，所述系统包括：图像处理模块，用于获取待处理图像，并基于预设的文本识别网络对所述待处理图进行特征抽取并获取当前图像特征；人工标注模块，用于根据所述当前图像特征v和预先标注的人工标注标签，生成CTC损失，并基于所述CTC损失对预先设置的特征抽取模型进行更新；标签预测模块，用于根据所述当前图像特征进行文本标签预测，并生成当前文本标签；结果获取模块，用于根据所述当前文本标签对进行预先设置的对比度损失模型的训练更新，并获取文本相似结果。 7.根据权利要求6所述的基于图像和文本信息融合的文字识别系统，其特征在于，所述结果获取模块还用于：权　利　要　求　书 1/2 页 2 CN 114445809 A 2基于预设的中文字形相似度模型根据所述当前文本标签获取与所述当前文本标签相似度达到预设特定值的特定数量的当前待挑选文字；分别计算特定数量的所述当前待挑选文字与所述人工标注标签之间，以及特定数量的所述当前待挑选文字与所述当前文本标签之间的对比度损失，并获取对比度损失值；根据所述对比度损失值进行预先设置的对比度损失模型的训练更新，并获取文本相似结果。 8.根据权利要求6所述的基于图像和文本信息融合的文字识别系统，其特征在于，所述标签预测模块还用于对所述当前图像特征采用Softmx进行文本标签预测，并生成当前文本标签；所述图像处理模块还用于获取待处理图像，并基于预设的crnn网络对所述待处理图进行特征抽取并获取当前图像特征。 9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至 5中任一项所述方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至 5中任一项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 114445809 A 3

专利 基于图像和文本信息融合的文字识别方法及系统

专利基于图像和文本信息融合的文字识别方法及系统