金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210082041.4 (22)申请日 2022.01.24 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 杨馥魁 韩钧宇  (74)专利代理 机构 北京鸿德 海业知识产权代理 有限公司 1 1412 专利代理师 田宏宾 (51)Int.Cl. G06V 10/82(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/44(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 模型训练方法、 装置、 设备和存 储介质 (57)摘要 本公开提供了一种模型训练方法、 装置、 设 备和存储介质, 涉及人工智能技术领域, 具体为 深度学习、 计算机视觉技术领域, 可应用于图像 处理、 图像检测等场景。 模型训练方法包括: 基于 教师模型输出的第一原始特征图, 获取第一分块 特征图; 基于初始的学生模型输出的第二原始特 征图, 获取第二分块特征图; 基于所述第一分块 特征图和所述第二分块特征图, 构建总损失函 数; 基于所述总损失函数, 调整所述初始的学生 模型的参数, 以生成最终的学生模型。 本公开可 以提高知识蒸馏 精度。 权利要求书3页 说明书13页 附图7页 CN 114549947 A 2022.05.27 CN 114549947 A 1.一种模型训练方法, 包括: 基于教师模型输出的第一原始特征图, 获取第一分块特征图, 所述第一分块特征图包 括所述第一原 始特征图的多个图像块; 基于初始 的学生模型输出的第二原始特征图, 获取第二分块特征图, 所述第二分块特 征图包括所述第二原始特征图的多个图像块, 其中, 所述第一原始特征图和所述第二原始 特征图的维度相同, 且, 所述第一原始特征图的多个图像块与所述第二原始特征图的多个 图像块的个数相同; 基于所述第一分块特 征图和所述第二分块特 征图, 构建总损失函数; 基于所述总损失函数, 调整所述初始的学生模型的参数, 以生成最终的学生模型。 2.根据权利要求1所述的方法, 其中, 所述基于所述第 一分块特征图和所述第 二分块特 征图, 构建总损失函数, 包括: 基于所述第 一原始特征图的多个图像块之间的相似度, 对所述第 一分块特征图进行加 权处理, 以获取第一加权特 征图; 基于所述第 二原始特征图的多个图像块之间的相似度, 对所述第 二分块特征图进行加 权处理, 以获取第二加权特 征图; 基于所述第一加权特 征图和所述第二加权特 征图, 构建所述总损失函数。 3.根据权利要求1所述的方法, 其中, 所述基于所述第 一分块特征图和所述第 二分块特 征图, 构建总损失函数, 包括: 基于所述第一分块特 征图和所述第二分块特 征图, 构建第一损失函数; 基于所述第 一原始特征图的多个图像块之间的相似度, 对所述第 一分块特征图进行加 权处理, 以获取第一加权特 征图; 基于所述第 二原始特征图的多个图像块之间的相似度, 对所述第 二分块特征图进行加 权处理, 以获取第二加权特 征图; 基于所述第一加权特 征图和所述第二加权特 征图, 构建第二损失函数; 基于所述第一损失函数和所述第二损失函数, 构建所述总损失函数。 4.根据权利要求2或3所述的方法, 其中, 所述基于所述第一原始特征图的多个图像块 之间的相似度, 对所述第一分块特 征图进行加权处 理, 以获取第一加权特 征图, 包括: 基于所述第一分块特征图, 获取第一相似度矩阵, 所述第一相似度矩阵用于表明所述 第一原始特征图的多个图像块之间的相似度; 基于所述第一相似度矩阵和所述第一分块特 征图, 获取 所述第一加权特 征图。 5.根据权利要求4所述的方法, 其中, 所述基于所述第一分块特征图, 获取第一相似度 矩阵, 包括: 对所述第一分块特 征图进行第一形状转换处 理, 以获取第一矩阵; 对所述第一分块特 征图进行第二形状转换处 理, 以获取第二矩阵; 将所述第一矩阵和所述第二矩阵的乘积, 作为所述第一相似度矩阵; 其中, 所述第一矩阵的行 数和所述第二矩阵的列数均为所述多个图像块的个数。 6.根据权利要求4所述的方法, 其中, 所述基于所述第 一相似度矩阵和所述第 一分块特 征图, 获取 所述第一加权特 征图, 包括: 对所述第一相似度矩阵进行归一 化处理, 以获取归一 化处理后的第一相似度矩阵;权 利 要 求 书 1/3 页 2 CN 114549947 A 2基于所述归一化处理后的第一相似度矩阵, 以及所述第一分块特征图的乘积, 获取所 述第一加权特 征图。 7.根据权利要求2或3所述的方法, 其中, 所述基于所述第二原始特征图的多个图像块 之间的相似度, 对所述第二分块特 征图进行加权处 理, 以获取第二加权特 征图, 包括: 基于所述第二分块特征图, 获取第二相似度矩阵, 所述第二相似度矩阵用于表明所述 第二原始特征图的多个图像块之间的相似度; 基于所述第二相似度矩阵和所述第二分块特 征图, 获取 所述第二加权特 征图。 8.根据权利要求7所述的方法, 其中, 所述基于所述第二分块特征图, 获取第二相似度 矩阵, 包括: 对所述第二分块特 征图进行第三形状转换处 理, 以获取第三矩阵; 对所述第二分块特 征图进行第四形状转换处 理, 以获取第四矩阵; 将所述第三矩阵和所述第四矩阵的乘积, 作为所述第二相似度矩阵; 其中, 所述第三矩阵的行 数和所述第四矩阵的列表均为所述多个图像块的个数。 9.根据权利要求7所述的方法, 其中, 所述基于所述第 二相似度矩阵和所述第 二分块特 征图, 获取 所述第二加权特 征图, 包括: 对所述第二相似度矩阵进行归一 化处理, 以获取归一 化处理后的第二相似度矩阵; 基于所述归一化处理后的第二相似度矩阵, 以及所述第二分块特征图, 获取所述第二 加权特征图。 10.一种模型训练装置, 包括: 第一获取模块, 用于基于教师模型输出的第一原始特征图, 获取第一分块特征图, 所述 第一分块特 征图包括所述第一原 始特征图的多个图像块; 第二获取模块, 用于基于初始 的学生模型输出的第二原始特征图, 获取第二分块特征 图, 所述第二分块特征图包括所述第二原始特征图的多个图像块, 其中, 所述第一原始特征 图和所述第二原始特征图的维度相同, 且, 所述第一原始特征图的多个图像块与所述第二 原始特征图的多个图像块的个数相同; 构建模块, 用于基于所述第一分块特 征图和所述第二分块特 征图, 构建总损失函数; 生成模块, 用于基于所述总损失函数, 调整所述初始的学生模型的参数, 以生成最终的 学生模型。 11.根据权利要求10所述的装置, 其中, 所述构建模块进一 步用于: 基于所述第 一原始特征图的多个图像块之间的相似度, 对所述第 一分块特征图进行加 权处理, 以获取第一加权特 征图; 基于所述第 二原始特征图的多个图像块之间的相似度, 对所述第 二分块特征图进行加 权处理, 以获取第二加权特 征图; 基于所述第一加权特 征图和所述第二加权特 征图, 构建所述总损失函数。 12.根据权利要求10所述的装置, 其中, 所述构建模块进一 步用于: 基于所述第一分块特 征图和所述第二分块特 征图, 构建第一损失函数; 基于所述第 一原始特征图的多个图像块之间的相似度, 对所述第 一分块特征图进行加 权处理, 以获取第一加权特 征图; 基于所述第 二原始特征图的多个图像块之间的相似度, 对所述第 二分块特征图进行加权 利 要 求 书 2/3 页 3 CN 114549947 A 3

PDF文档 专利 模型训练方法、装置、设备和存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练方法、装置、设备和存储介质 第 1 页 专利 模型训练方法、装置、设备和存储介质 第 2 页 专利 模型训练方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。