金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210092535.0 (22)申请日 2022.01.26 (71)申请人 西南民族大 学 地址 610041 四川省成 都市一环路南四段 16号西南民族大 学电信学院 (72)发明人 徐钒鑫 吴伟煊 刘蓓蓓 吕赫  向伟  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 专利代理师 张恺宁 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01)G06V 10/766(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 一种基于深度学习的图像识别方法及相关 装置 (57)摘要 本申请公开了一种基于深度学习的图像识 别方法及相关装置, 该方法通过特征提取获取待 识别图像对应的多张待处理特征图。 基于预先设 置的第一膨胀因子对各待处理特征图进行多轮 第一卷积操作, 以根据每轮第一卷积操作得到的 特征识别结果确定每一待处理图像对应的第一 总特征图。 进而通过解码器确定该待识别图像的 识别结果。 由于每轮第一卷积操作对应第一膨胀 因子不同, 因而每轮第一卷积操作得到的特征识 别结果处于不同感受野。 且每轮第一卷积操作的 特征识别结果会作为下一轮的输入项, 因而最后 一轮第一卷积操作即可得到表征不同感受野下 的特征结果融合的第一总特征图。 通过上述流程 能够大幅降低神经网络模型的参数量, 提高模型 收敛速度。 权利要求书2页 说明书15页 附图3页 CN 114511766 A 2022.05.17 CN 114511766 A 1.一种基于深度学习的图像识别方法, 其特 征在于, 所述方法包括: 对待识别图像进行特征提取, 获取表征所述待识别图像的不同维度的多 张待处理特征 图; 其中, 各待处 理特征图的尺寸相同; 基于预先设置的第 一膨胀因子对各待处理特征图进行多轮第 一卷积操作, 以根据每轮 第一卷积操作得到的特征识别结果确定每一待处理特征图对应的第一总 特征图; 其中, 每 轮第一卷积操作对应的第一膨胀因子不同, 不同数值的第一膨胀因子表征所述特征识别结 果对应的感受野不同; 通过解码器确定所述第 一总特征图所属的预设分类, 并将所述预设分类作为所述待识 别图像的识别结果; 其中, 所述第一卷积 操作过程如下: 基于本轮对应的第一膨胀因子, 采用第一卷积核对输入项进行卷积运算, 得到所述输 入项对应的第一子特征图; 并采用第二卷积核对所述第一子特征图进行卷积运算, 得到所 述输入项在所述第一膨胀 因子对应感受野下 的特征识别结果; 其中, 首轮第一卷积操作的 输入项为所述各待处理特征图, 非首轮第一卷积操作的输入项为前一轮得到的特征识别结 果; 所述第一卷积核和所述第二卷积核的尺寸 不同。 2.根据权利要求1所述的方法, 其特征在于, 所述第 一卷积核和所述第 二卷积核的预设 维度相同, 所述获取表征所述待识别图像的不同维度的多张待处理特征图之后, 所述方法 还包括: 对各待处理特征图进行多轮第一卷积操作之前, 对所述各待处理特征图进行维度处 理, 以使所述各待处 理特征图的维度与所述预设维度相同。 3.根据权利要求2所述的方法, 其特征在于, 所述第 二卷积核的数量大于所述第 一卷积 核的数量, 所述采用第一卷积核对输入项 进行卷积操作, 包括: 对所述输入项中的每一图片进行卷积运算, 以得到每一图片对应的第一子特征图; 其 中, 所述图片为待处 理特征图或特 征识别结果; 所述采用第二卷积核对所述第一子特 征图进行 卷积操作, 包括: 对所述输入项中的每一所述图片进行卷积运算, 并在卷积过程中对各所述图片相同位 置处的像素值相加, 以得到所述输入项中全部图片对应的特 征提取结果。 4.根据权利要求1所述的方法, 其特征在于, 所述通过解码器确定所述第 一总特征图所 属的预设 分类, 包括: 控制回归头基于第 二膨胀因子对所述第 一总特征图进行第 二卷积运算, 以确定所述第 一总特征图对应的感兴趣区域; 并, 控制分类头基于所述第 二膨胀因子对所述第 一总特征图进行第 三卷积运算, 以确定第 一总特征图的分类 检测结果; 其中, 所述第二 膨胀因子与所述第一 膨胀因子的数值 不同; 若所述分类检测结果表征所述第 一总特征图为可识别图像, 则对所述第 一总特征图的 感兴趣区域进行类别识别, 并根据识别结果确定所述第一总特 征图所属的预设 分类。 5.根据权利要求4所述的方法, 其特征在于, 所述控制回归头基于第 二膨胀因子对所述 第一总特 征图进行第二卷积运 算, 以确定所述第一总特 征图对应的感兴趣区域, 包括: 基于所述第二膨胀因子, 采用第三卷积核对所述第一总特征图进行卷积运算, 得到在 所述第二膨胀 因子对应感受野下 的第二子特征图; 其中, 所述第三卷积核与所述第一卷积 核的尺寸相同;权 利 要 求 书 1/2 页 2 CN 114511766 A 2采用第四卷积核对所述第 二子特征图进行卷积运算, 得到所述第 二子特征图对应的第 二总特征图; 并采用第五卷积核对所述第二总特征图进 行卷积运算, 得到所述感兴趣区域; 其中, 所述第三卷积核和所述第 五卷积核的尺寸均与所述第一卷积核相同; 所述第四卷积 核与所述第二卷积核的尺寸相同, 且所述第四卷积核的数量大于所述第三卷积核的数量。 6.根据权利要求4所述的方法, 其特征在于, 所述控制分类头基于所述第 二膨胀因子对 所述第一总特 征图进行第三卷积运 算, 以确定第一总特 征图的分类 检测结果, 包括: 基于所述第二膨胀因子, 采用第六卷积核对所述第一总特征图进行卷积运算, 得到所 述在所述第二膨胀 因子对应感受野下 的第三子特征图; 其中, 所述第六卷积核与所述第一 卷积核的尺寸相同; 采用第七卷积核对所述第 三子特征图进行卷积运算, 得到所述第 三子特征图对应的第 三总特征图; 并采用第八卷积核对所述第三总 特征图进行卷积运算, 得到所述分类检测结 果; 其中, 所述第六卷积核和所述第八卷积核的尺寸均与所述第一卷积核相同; 所述第七卷 积核与所述第二卷积核的尺寸相同, 且所述第七卷积核的数量大于所述第六卷积核的数 量。 7.根据权利要求1 ‑6中任一所述的方法, 其特征在于, 所述解码器 中的分类头和回归头 内均至少包括 一个膨胀卷积块。 8.一种基于深度学习的图像识别装置, 其特 征在于, 所述装置包括: 特征提取模块, 被配置为执行对待识别图像进行特征提取, 获取表征所述待识别图像 的不同维度的多张待处 理特征图; 其中, 各待处 理特征图的尺寸相同; 特征融合模块, 被配置为执行基于预先设置的第 一膨胀因子对各待处理特征图进行多 轮第一卷积操作, 以根据每轮第一卷积操作得到的特征识别结果确定每一待处理特征图对 应的第一总特征图; 其中, 每轮第一卷积操作对应的第一膨胀因子不同, 不同数值的第一膨 胀因子表征 所述特征识别结果对应的感受野不同; 图像识别模块, 被配置执行通过解码器确定所述第一总特征图所属的预设分类, 并将 所述预设 分类作为所述待识别图像的识别结果; 其中, 所述第一卷积 操作过程如下: 基于本轮对应的第一膨胀因子, 采用第一卷积核对输入项进行卷积运算, 得到所述输 入项对应的第一子特征图; 并采用第二卷积核对所述第一子特征图进行卷积运算, 得到所 述输入项在所述第一膨胀 因子对应感受野下 的特征识别结果; 其中, 首轮第一卷积操作的 输入项为所述各待处理特征图, 非首轮第一卷积操作的输入项为前一轮得到的特征识别结 果; 所述第一卷积核和所述第二卷积核的尺寸 不同。 9.一种电子设备, 其特征在于, 包括至少一个处理器; 以及与 所述至少一个处理器通信 连接的存储器; 其中, 所述存储器存储有 可被所述至少一个处理器执行的指 令, 所述指 令被 所述至少一个处理器执行, 以使所述至少一个处理器能够执行如权利要求1 ‑7中任何一项 所述的方法。 10.一种计算机存储介质, 其特征在于, 所述计算机存储介质存储有计算机程序, 所述 计算机程序用于使计算机执 行如权利要求1 ‑7任何一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114511766 A 3

PDF文档 专利 一种基于深度学习的图像识别方法及相关装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的图像识别方法及相关装置 第 1 页 专利 一种基于深度学习的图像识别方法及相关装置 第 2 页 专利 一种基于深度学习的图像识别方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。