金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211243652.9 (22)申请日 2022.10.12 (71)申请人 中南民族大 学 地址 430074 湖北省武汉市洪山路民族大 道182号 申请人 武汉空天软件技 术有限公司 (72)发明人 王德军 杨烨 孟博 于龙洋  龚建全  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 黄靖 (51)Int.Cl. G06V 30/412(2022.01) G06N 3/04(2006.01) G06V 10/26(2022.01)G06V 10/44(2022.01) G06V 10/52(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于图像实例分割的表格结构识别方 法 (57)摘要 本发明属于图像识别领域, 提供了一种基于 图像实例分割的表格结构识别方法。 该方法包 括, 首先针对表 格图像进行预处理并对图像中的 表格进行定位检测, 然后对实例分割网络模型进 行改进, 通过在模型的主干网络以及FPN多尺度 特征金字塔模块中加入有效通道注意力机制来 加强模型获取表 格图像像素信息的能力, 从而 得 到表格图像中所包含单元格分割结果, 最后根据 表格单元格像素特性对分割表格单元格的掩膜 进行优化, 提高边缘拟合的精细度, 实现对复杂 异构表格涵盖的单元格结构进行准确的分割识 别, 有效提升表格单 元格结构识别的准确率。 权利要求书3页 说明书9页 附图5页 CN 115331245 A 2022.11.11 CN 115331245 A 1.一种基于图像实例分割的表格结构识别方法, 其特 征在于, 包括以下步骤: 步骤S1: 获取并识别输入表格 图像中的表格位置, 并对所述待识别的表格图像进行预 处理操作; 步骤S2: 对表格图像中的表格区域进行检测, 定位到待识别的表格区域; 步骤S3: 基于改进的Mask  R‑CNN‑E算法进行表格单元格结构识别, 通过加入通道注意 力机制, 将其与多尺度特征进行融合, 构建一个基于改进的Mask  R‑CNN‑E算法的表格单元 格结构分割模型, 并对识别到的表格区域中涵盖的所有单元格进行识别分割, 得到每个单 元格所在区域及坐标; 步骤S4: 基于表格 图像中单元格各个顶点及框线的像素特征, 将得到的单元格分割区 域使用基于规则和形态学的单元格掩膜边缘优化算法对分割结果进行优化处理, 最 终得到 复杂表格涵盖的单 元格结构分割结果。 2.根据权利要求1所述的一种基于图像实例分割的表格结构识别方法, 其特征在于, 所 述步骤S1中预处 理操作包括灰度化、 二 值化、 倾斜校正。 3.根据权利要求2所述的一种基于图像实例分割的表格结构识别方法, 其特征在于, 所 述步骤S1具体包括以下步骤: 步骤S11: 获取并识别输入表格图像 中的表格位置, 并将所述待识别的表格图像转换成 单通道的灰度图像, 所使用的公式为: Gray=R* 0 .299 +G*0 .587 +B*0 .114 其中, Gray代 表灰度值, R、 G、 B分别是图像中每 个像素的三个颜色通道分量; 步骤S12: 使用最大类间方差法将灰度图像 变换为二值图像, 所用公式如下: 其中, 为计算得到的类间方差取最大时对应的最佳阈值, 其中目标点数占总图像比 例为 , 平均灰度值为 ; 背景点数占图像比例为 , 平均灰度值为 ; 为图像的总 平均灰度值; 步骤S13: 对所述的待识别的表格图像的二值化图像利用透视变换法进行倾斜校正, 利 用表格最外框四个顶点坐标方差, 把其三维坐标投影到另外一个视平面, 从而得到校正后 的表格图像, 所用公式如下: 其中, 是原始图像像素点的齐次坐标, 当齐次坐标 归一化之后, 则对应得到 变换后的图像的二维坐标 , 其中 , , 表示 线性变换, 表示平移, 产生变换, 是与 相关的缩放 因子。权 利 要 求 书 1/3 页 2 CN 115331245 A 24.根据权利要求1所述的一种基于图像实例分割的表格结构识别方法, 其特征在于, 所 述步骤S2具体包括以下步骤: 步骤S21: 获取预处理之后的二值图像, 寻找图像中所包含的轮廓contours, 并得到每 个contours轮廓的list结构的每个元素的边沿信息, 每个元素是(i,1,2)三维向量, i表示 该条边沿共有多少个像素, “1”表示所包含的像素存在一组元素中, 第三维的 “2”则表示每 个点的横纵坐标; 步骤S22: 利用循环 找到最大面积的轮廓, 并生成外 接矩形; 步骤S23: 得到面积最大轮廓外接矩形后, 对此目标 区域进行剪裁, 剪裁时先对y方向剪 裁再对x方向剪裁, 最终得到 剪裁截取后的表格图像中的表格区域。 5.根据权利要求1所述的一种基于图像实例分割的表格结构识别方法, 其特征在于, 所 述步骤S3具体包括以下步骤: 步骤S31: 首先对采集到的表格图像数据集进行标注, 最终生成对表格单元格标注的 json标注数据文件, 所述json标注数据文件中包含对应单元格的名称以及该单元格相应标 注的四个顶点的坐标位置; 步骤S32: 使用改进的Mask  R‑CNN‑E算法识别分割表格中的单 元格结构; 步骤S33: 通过改进的实例分割Mask  R‑CNN‑E算法, 利用步骤S31标注好的复杂框线表 格单元格数据集进行模型 的训练, 数据在预处理过程中使用数据增强的策略, 构建一个基 于实例分割模型及注 意力机制的表格单元格结构检测模型, 使用该模型算法对区域内的所 有单元格进行检测, 获取识别到表格图像的所有单 元格的分割区域及坐标。 6.根据权利要求5所述的一种基于图像实例分割的表格结构识别方法, 其特征在于, 所 述步骤S32具体包括以下步骤: 对原始实例分割算法进行改进, 基于原始实例分割算法的主干网络部分、 特征金字塔 部分进行特征提取与特征融合, 特征提取层的主干网络中包含两个基本的块, 分别 是Conv  Block和Identity  Block, 前者在 残差边增加一个卷积, 通过设置Conv  Block的步长和通道 数改变输入特 征层的维度, 后者可以通过不断地串联加深网络; 通过主干特征提取网络进行特征提取后, 利用长宽压缩了的特征层来进行特征金字塔 结构的构造; 取出在主干特征提取网络中长宽压缩了的卷积的结果通过进行上采样构造 FPN特征金字塔结构来实现特征多尺度的融合; 最后通过融合得到的特征层作为 RPN提取建 议框的四个不同尺寸的有效特 征层; 对上述主干网络提取有 效特征层的结果加入有 效通道注意力 机制, 同时在特征金字塔 上采样部分的特征层加入有效通道注意力模块, 将该模块与多尺度特征的主干特征提取网 络进行融合, 获得输入进来的特 征层的每 个通道的权 重。 7.根据权利要求6所述的一种基于图像实例分割的表格结构识别方法, 其特征在于, 获 得输入进来的特 征层的每 个通道的权 重具体为: 经过主干网络以及特征金字塔上采样的卷积后得到 高度和宽度分别为W和H, 通道数为 C的有效特征图, 首先对输入进来的有效特征层进 行全局平局池化操作, 在 全局平均池化之 后的特征上直接通过一个可以权重共享的1D卷积进行学习; 然后进行Sigmoid激活函数的 处理, 将值固定在0 ‑1之间, 获得输入特征层每个通道的权值, 最后输出这个权值与原输入 特征层相乘的结果, 并利用RPN建议框对有效特 征层进行 下一步的操作。权 利 要 求 书 2/3 页 3 CN 115331245 A 3

PDF文档 专利 一种基于图像实例分割的表格结构识别方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图像实例分割的表格结构识别方法 第 1 页 专利 一种基于图像实例分割的表格结构识别方法 第 2 页 专利 一种基于图像实例分割的表格结构识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:59:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。