专利一种通用体检报告OCR识别方法及数据处理系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210921375.6 (22)申请日 2022.08.02 (71)申请人北京爱选信息科技有限公司地址 100084 北京市海淀区上地信息路1号 2号楼11层1103-4 (72)发明人张庆峰　 (74)专利代理机构北京棘龙知识产权代理有限公司 11740 专利代理师褚晓佳 (51)Int.Cl. G06V 30/14(2022.01) G06V 30/41(2022.01) G06F 40/295(2020.01) G06F 40/247(2020.01) G06F 16/36(2019.01)G06F 16/25(2019.01) G16H 15/00(2018.01) (54)发明名称一种通用体检报告OCR识别方法及数据处理系统 (57)摘要本发明公开了一种通用体检报告OCR识别方法及数据处理系统，包括从业务系统中获取体检报告，再利用不同格式体检报告构建针对体检报告的OCR文本识别模型；针对体检报告中照片或图片进行模型参数调整，得到相对最优的模型；在调整过程中的对体检报告进行去噪处理；利用自然语言处理技术提取体检报告中的文本，同时将数据结构化和标准化；将体检项目结果以一种固定的模板或结构进行输出；将非结构化的数据转为结构化的数据，同时将体检报告中的体检项目名称进行标准化，将结果归一化。本发明通过相应设置，使OCR识别模型不局限于某种特定的体检报告模板，能将体检报告中的检查结果提取出来，并且形成格式一致的结构化的数据。权利要求书1页说明书5页附图2页 CN 115273084 A 2022.11.01 CN 115273084 A 1.一种通用体检报告OCR识别方法，其特征在于，包括以下步骤： S1、从业务系统中获取体检报告，再利用不同格式体检报告构建针对体检报告的OCR文本识别模型； S2、针对体检报告中照片或图片进行模型参数调整，得到相对最优的模型； S3、在调整过程中的对体检报告进行去噪处理； S4、利用自然语言处理技术提取体检报告中的文本，同时将数据结构化和标准化； S5、将体检项目结果以一种固定的模板或结构进行输出； S6、将非结构化的数据转为结构化的数据，同时将体检报告中的体检项目名称进行标准化，将结果归一化。 2.根据权利要求1所述的一种通用体检报告OCR识别方法，其特征在于，所述S2构建最优模型时，由于拍照的亮度和角度等因素，会导致拍摄出的照片与一般的截屏图片会存在不少的偏差，导致识别出的文本和位置出现偏差，所以对于部分照片需要做旋转、亮度或弯曲度的调整。 3.根据权利要求1所述的一种通用体检报告OCR识别方法，其特征在于，所述S2中照片和图片需要经过预处理，所述预处理包括去边及将照片或图片转换为灰白图片，再进行中值滤波，最后进行二值化操作得到二值化图片。 4.根据权利要求1所述的一种通用体检报告OCR识别方法，其特征在于，所述S3中去噪处理包括过滤体检报告中页眉页脚或一些无用的文本。 5.根据权利要求1所述的一种通用体检报告OCR识别方法，其特征在于，所述S4中自然语言技术包括分词、命名实体识别、实体关系抽取和知识图谱等，并且还需要用到针对体检的垂直领域的字典，所述字典需要核保人员协助使用人工和算法手段获得。 6.根据权利要求4所述的一种通用体检报告OCR识别方法，其特征在于，所述S5体检项目结果类型分别定义为文本型、数值型、阴阳型和枚举型。 7.一种通用体检报告数据处理系统，其特征在于，包括：数据提取模块、图片处理模块、分词命名识别模块和输出模块。 8.根据权利要求1所述的一种通用体检报告数据处理系统，其特征在于，所述数据提取模块包括获取单元、处理单元和转换单元，所述获取单元用于提取业务系统中体检报告，所述处理单元，用于对体检报告进行字符识别，从而方便得到模型数据信息，所述转换单元用于将数据信息转换为待分析图片。 9.根据权利要求1所述的一种通用体检报告数据处理系统，其特征在于，所述图片处理模块包括扫描单元、定位单元和调整单元，所述扫描单元用于扫描图片信息，确认图片的亮度、弯曲度和大小等信息，所述定位单元用于对图片位置的确定，方便对图片进行位置调整，所述调整单元用于对图片进行旋转、亮度或弯曲度的调整。 10.根据权利要求1所述的一种通用体检报告数据处理系统，其特征在于，所述分词命名识别模块包括识别单元、对比单元和抽取单元，所述识别单元用于确认文本分词和实体命名信息，所述对比单元用于将有误的信息对比出来，所述抽取单元用于有误的信息抽取调换，使得输出的文本信息能够准确无误。权　利　要　求　书 1/1 页 2 CN 115273084 A 2一种通用体检报告OCR识别方法及数据处理系统技术领域 [0001]本发明属于医疗风控技术领域，具体涉及一种通用体检报告OCR识别方法及数据处理系统。背景技术 [0002]OCR文字识别是指电子设备检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。 [0003]近几年OCR识别的技术发展迅速，目前市场上有各种各样的OCR识别模型，有针对特定票据或卡片识别模型，如身份证识别、火车票识别、出租车票识别等等，也有通用的文字识别或手写的文字识别，但特定的识别模型相比于通用的识别模型，准确率更高。所以特定的识别模型越来越多，技术也越来越成熟。 [0004]目前市场上的OCR识别模型虽然已经很多，但针对体检报告的OC R识别模型还是比较少见，当然也能使用通用的识别模型识别体检报告，但通用的识别模型对于体检报告中的特殊字符，如： “γ”、“‑”或单位的识别出错率很高，从而造成识别错误或遗漏不显示的问题，严重影响使用者的阅读，进而为使用者带来不必要的麻烦。 [0005]因此，针对上述技术问题，有必要提供一种通用体检报告OC R识别方法及数据处理系统。发明内容 [0006]本发明的目的在于提供一种通用体检报告OCR识别方法及数据处理系统，以解决上述现有通用识别模型对体检报告中的特殊字符难以识别的问题。 [0007]为了实现上述目的，本发明一实施例提供的技术方案如下： [0008]一种通用体检报告OCR识别方法，包括以下步骤： [0009]S1、从业务系统中获取体检报告，再利用不同格式体检报告构建针对体检报告的 OCR文本识别模型； [0010]S2、针对体检报告中照片或图片进行模型参数调整，得到相对最优的模型； [0011]S3、在调整过程中的对体检报告进行去噪处理； [0012]S4、利用自然语言处理技术提取体检报告中的文本，同时将数据结构化和标准化； [0013]S5、将体检项目结果以一种固定的模板或结构进行输出； [0014]S6、将非结构化的数据转为结构化的数据，同时将体检报告中的体检项目名称进行标准化，将结果归一化。 [0015]进一步地，所述S2构建最优模型时，由于拍照的亮度和角度等因素，会导致拍摄出的照片与一般的截屏图片会存在不少的偏差，导致识别出的文本和位置出现偏差，所以对于部分照片需要做旋转、亮度或弯曲度的调整，从而能够相对准确地获取图片中的文本及文本在体检报告中对应的位置。说　明　书 1/5 页 3 CN 115273084 A 3

专利 一种通用体检报告OCR识别方法及数据处理系统

专利一种通用体检报告OCR识别方法及数据处理系统