金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210921375.6 (22)申请日 2022.08.02 (71)申请人 北京爱选信息科技有限公司 地址 100084 北京市海淀区上地信息路1号 2号楼11层1103-4 (72)发明人 张庆峰  (74)专利代理 机构 北京棘龙知识产权代理有限 公司 11740 专利代理师 褚晓佳 (51)Int.Cl. G06V 30/14(2022.01) G06V 30/41(2022.01) G06F 40/295(2020.01) G06F 40/247(2020.01) G06F 16/36(2019.01)G06F 16/25(2019.01) G16H 15/00(2018.01) (54)发明名称 一种通用体检报告OCR识别方法及数据处理 系统 (57)摘要 本发明公开了一种通用体检报告OCR识别方 法及数据处理系统, 包括 从业务系统中获取体检 报告, 再利用不同格式体检报告构建针对体检报 告的OCR文本识别模型; 针对体检报告中照片或 图片进行模型参数调整, 得到相对最优的模型; 在调整过程中的对体检报告进行去噪处理; 利用 自然语言处理技术提取体检报告中的文本, 同时 将数据结构化和标准化; 将体检项目结果以一种 固定的模板或结构进行输出; 将非结构化的数据 转为结构化的数据, 同时将体检报告中的体检项 目名称进行标准化, 将结果归一化。 本发明通过 相应设置, 使OCR识别模型不局限于某种特定的 体检报告模板, 能将体检报告中的检查结果提取 出来, 并且形成格式一 致的结构化的数据。 权利要求书1页 说明书5页 附图2页 CN 115273084 A 2022.11.01 CN 115273084 A 1.一种通用体 检报告OCR识别方法, 其特 征在于, 包括以下步骤: S1、 从业务系统中获取体检报告, 再利用不同格式体检报告构建针对体检报告的OCR文 本识别模型; S2、 针对体 检报告中照片或图片进行模型参数调整, 得到相对最优的模型; S3、 在调整过程中的对体 检报告进行去噪处 理; S4、 利用自然语言处 理技术提取体检报告中的文本, 同时将数据结构化和标准 化; S5、 将体检项目结果以一种固定的模板或结构进行输出; S6、 将非结构化的数据转为结构化的数据, 同时将体检报告中的体检项目名称进行标 准化, 将结果归一 化。 2.根据权利要求1所述的一种通用体检报告OCR识别方法, 其特征在于, 所述S2构建最 优模型时, 由于拍照的亮度和角度等因素, 会导致拍摄出 的照片与一般的截屏图片会存在 不少的偏差, 导致识别出的文本和位置出现偏 差, 所以对于部 分照片需要做旋转、 亮度或弯 曲度的调整。 3.根据权利要求1所述的一种通用体检报告OCR识别方法, 其特征在于, 所述S2中照片 和图片需要经过预处理, 所述预处理包括去边及将照片或图片转换为灰白图片, 再进行中 值滤波, 最后进行二 值化操作得到二 值化图片。 4.根据权利要求1所述的一种通用体检报告OCR识别方法, 其特征在于, 所述S3中去噪 处理包括过 滤体检报告中页眉页 脚或一些 无用的文本 。 5.根据权利要求1所述的一种通用体检报告OCR识别方法, 其特征在于, 所述S4中自然 语言技术包括分词、 命名实体识别、 实体 关系抽取和知识图谱等, 并且还需要用到针对体检 的垂直领域的字典, 所述字典需要 核保人员协助使用人工和算法手段获得。 6.根据权利要求4所述的一种通用体检报告OCR识别方法, 其特征在于, 所述S5体检项 目结果类型分别定义 为文本型、 数值型、 阴 阳型和枚举型。 7.一种通用体检报告数据处理系统, 其特征在于, 包括: 数据提取模块、 图片处理模块、 分词命名识别模块和输出模块。 8.根据权利要求1所述的一种通用体检报告数据处理系统, 其特征在于, 所述数据提取 模块包括获取单元、 处理单元和转换单元, 所述 获取单元用于提取业务系统中体检报告, 所 述处理单元, 用于对体检报告进 行字符识别, 从而方便得到模 型数据信息, 所述转换单元用 于将数据信息转换为待分析图片。 9.根据权利要求1所述的一种通用体检报告数据处理系统, 其特征在于, 所述图片处理 模块包括扫描 单元、 定位单元和调整 单元, 所述扫描 单元用于扫描图片信息, 确认图片的亮 度、 弯曲度和大小等信息, 所述定位单元用于对图片位置的确定, 方便对图片进行位置调 整, 所述调整单 元用于对图片进行旋转、 亮度或弯曲度的调整。 10.根据权利要求1所述的一种通用体检报告数据处理系统, 其特征在于, 所述分词命 名识别模块包括识别单元、 对比单元和抽取单元, 所述识别单元用于确认文本分词和实体 命名信息, 所述对比单元用于将有误的信息对比出来, 所述抽取单元用于有误的信息抽取 调换, 使得输出的文本信息能够准确无误。权 利 要 求 书 1/1 页 2 CN 115273084 A 2一种通用体检报 告OCR识别方 法及数据处理系统 技术领域 [0001]本发明属于医疗风控技术领域, 具体涉及一种通用体检报告OCR识别方法及数据 处理系统。 背景技术 [0002]OCR文字识别是指电子设备检查纸上打印的字符, 然后用字符识别方法将形状翻 译成计算机文字的过程; 即对文本 资料进行扫描, 然后对图像文件进 行分析处理, 获取文字 及版面信息的过程。 [0003]近几年OCR识别的技术发展迅速, 目前市场上有各种各样的OCR识别模型, 有针对 特定票据或卡片识别模型, 如身份证识别、 火车票识别、 出租车票识别等等, 也有通用的文 字识别或手写的文字识别, 但特定的识别模型相比于通用的识别模型, 准确率更高。 所以特 定的识别模型越来越多, 技 术也越来越成熟。 [0004]目前市场上的OCR识别模型虽然已经很多, 但针对体检报告的OC R识别模型还是比 较少见, 当然也能使用通用的识别模型识别体检报告, 但通用的识别模型对于体检报告中 的特殊字符, 如: “γ”、“‑”或单位的识别出错率很高, 从而造成识别错误 或遗漏不显示的问 题, 严重影响使用者的阅读, 进 而为使用者带来 不必要的麻烦。 [0005]因此, 针对上述技术问题, 有必要提供一种通用体检报告OC R识别方法及数据处理 系统。 发明内容 [0006]本发明的目的在于提供一种通用体检报告OCR识别方法及数据处理系统, 以解决 上述现有通用识别模型对体 检报告中的特殊字符难以识别的问题。 [0007]为了实现上述目的, 本发明一实施例提供的技 术方案如下: [0008]一种通用体 检报告OCR识别方法, 包括以下步骤: [0009]S1、 从业务系统中获取体检报告, 再利用不同格式体检报告构建针对体检报告的 OCR文本识别模型; [0010]S2、 针对体 检报告中照片或图片进行模型参数调整, 得到相对最优的模型; [0011]S3、 在调整过程中的对体 检报告进行去噪处 理; [0012]S4、 利用自然语言处 理技术提取体检报告中的文本, 同时将数据结构化和标准 化; [0013]S5、 将体检项目结果以一种固定的模板或结构进行输出; [0014]S6、 将非结构化的数据转为结构化的数据, 同时将体检报告中的体检项目名称进 行标准化, 将结果归一 化。 [0015]进一步地, 所述S2构建最优模型时, 由于拍照的亮度和角度等 因素, 会导致拍摄出 的照片与一般的截屏图片会存在不少的偏差, 导致识别出 的文本和位置出现偏差, 所以对 于部分照片 需要做旋转、 亮度或弯曲度的调整, 从而能够相对准确 地获取图片 中的文本及 文本在体 检报告中对应的位置 。说 明 书 1/5 页 3 CN 115273084 A 3

PDF文档 专利 一种通用体检报告OCR识别方法及数据处理系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种通用体检报告OCR识别方法及数据处理系统 第 1 页 专利 一种通用体检报告OCR识别方法及数据处理系统 第 2 页 专利 一种通用体检报告OCR识别方法及数据处理系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:01:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。