金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111186029.X (22)申请日 2021.10.12 (71)申请人 鼎富智能科技有限公司 地址 230000 安徽省合肥市高新区习友路 3333号A1楼19层-B区 (72)发明人 胡加明 李健铨 吴相博 刘小康  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 代理人 唐正瑜 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 10/82(2022.01) (54)发明名称 一种模型蒸馏训练方法、 装置、 电子设备及 存储介质 (57)摘要 本申请提供一种模型蒸馏训练方法、 装置、 电子设备及存储介质, 用于改善对长尾类别的样 本识别正确率提高十分有限的问题。 该方法包 括: 获取包括长尾类别的训练数据集, 并使用多 种数据增强手段对训练数据集进行数据增强, 获 得多个数据集合; 使用多个数据集合分别对多个 老师模型进行不同种类的损失优化训练, 获得训 练后的多个老师模型, 一个老师模 型是使用一个 数据集合进行一个种类的损失优化训练获得的; 根据准确率从多个老师模型中选择出预设数量 的老师模型; 获取预设数量的学生模型, 使用老 师模型对学生模 型进行蒸馏训练, 获得预设数量 蒸馏后的学生模 型; 从预设数量蒸馏后的学生模 型中筛选出准确率 最高的学生模型。 权利要求书2页 说明书10页 附图3页 CN 113935234 A 2022.01.14 CN 113935234 A 1.一种模型蒸馏训练方法, 其特 征在于, 包括: 获取包括长尾类别的训练数据集, 并使用多种数据增强手段对所述训练数据集进行数 据增强, 获得多个数据集 合; 使用所述多个数据集合分别对多个老师模型进行不同种类的损失优化训练, 获得训练 后的多个老师模型, 一个所述老师模型是使用一个所述数据集合进行一个种类的损失优化 训练获得的; 根据准确率从所述多个老师模型中选择 出预设数量的老师模型; 获取所述预设数量的学生模型, 使用所述老师模型对所述学生模型进行蒸馏训练, 获 得所述预设数量蒸馏后的学生模型; 从所述预设数量蒸馏后的学生模型中筛 选出准确率 最高的学生模型。 2.根据权利要求1所述的方法, 其特征在于, 在所述从所述预设数量蒸馏后的学生模型 中筛选出准确率 最高的学生模型之后, 还 包括: 获取待处 理数据; 使用所述 准确率最高的学生模型对所述待处 理数据进行分类预测, 获得分类结果。 3.根据权利要求1所述的方法, 其特征在于, 所述训练数据集是文本数据集; 所述使用 多种数据增强手段对所述训练数据集进行 数据增强, 包括: 使用同义词替换、 回译、 动态遮掩、 随机插入、 随机交换和/或随机删除的数据增强手段 对所述文本数据集进行 数据增强。 4.根据权利要求1所述的方法, 其特征在于, 所述训练数据集是图像数据集和/或视频 数据集; 所述使用多种数据增强手段对所述训练数据集进行 数据增强, 包括: 使用图像缩放、 图像旋转、 水平翻转和垂直翻转的数据增强手段对所述图像数据集和/ 或所述视频 数据集进行 数据增强。 5.根据权利要求1所述的方法, 其特征在于, 所述老师模型包括: 第一嵌入层、 第 一转换 器层和第一预测层, 所述学生模型包括: 第二嵌入层、 第二转换器层和第二预测层; 所述使 用所述老师模型对所述学生模型进行蒸馏训练, 包括: 利用推土机距离EMD对所述数据集合中的数据标签、 所述第一预测层的输出与所述第 二预测层的输出进行计算, 获得第一蒸馏损失, 并分别计算所述第一转换器层的输出与所 述第二转换器层的输出之 间的第二蒸馏损失, 以及所述第一嵌入层的输出与所述第二嵌入 层的输出之间的第三蒸馏损失; 根据所述第一蒸馏损 失、 所述第二蒸馏损 失和/或所述第三蒸馏损 失对所述学生模型 中的参数进行训练优化, 获得训练好的所述学生模型。 6.根据权利要求5所述的方法, 其特征在于, 所述利用推土机距离EMD对所述数据集合 中的数据标签、 所述第一预测层的输出与所述第二预测层的输出进行计算, 获得第一蒸馏 损失, 包括: 计算出所述第一预测层的输出与所述第二预测层的输出之间的第一EMD距离, 并计算 出所述数据集 合中的数据标签与所述第二预测层的输出之间的第二E MD距离; 根据所述第一E MD距离和所述第二E MD距离计算所述第一蒸馏损失。 7.根据权利要求1 ‑6任一所述的方法, 其特征在于, 所述不同种类的损失优化, 包括: CeLoss、 FocalLoss、 GHM和/或DiceL oss。权 利 要 求 书 1/2 页 2 CN 113935234 A 28.一种模型蒸馏训练装置, 其特 征在于, 包括: 数据集合获得模块, 用于获取包括长尾类别的训练数据集, 并使用多种数据增强手段 对所述训练数据集进行 数据增强, 获得多个数据集 合; 老师模型获得模块, 用于使用所述多个数据集合分别对多个老师模型进行不同种类的 损失优化训练, 获得训练后的多个老师模型, 一个所述老师模型是使用一个所述数据集合 进行一个种类的损失优化训练获得的; 老师模型选择模块, 用于根据准确率从所述多个老师模型中选择出预设数量的老师模 型; 学生模型获得模块, 用于获取所述预设数量的学生模型, 使用所述老师模型对所述学 生模型进行蒸馏训练, 获得 所述预设数量蒸馏后的学生模型; 学生模型选择模块, 用于从所述预设数量蒸馏后的学生模型中筛选出准确率最高的学 生模型。 9.一种电子设备, 其特征在于, 包括: 处理器和存储器, 所述存储器存储有所述处理器 可执行的机器可读指 令, 所述机器可读指令被所述处理器执行时执行如权利要求1至7任一 所述的方法。 10.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程 序, 该计算机程序被处 理器运行时执 行如权利要求1至7任一所述的方法。权 利 要 求 书 2/2 页 3 CN 113935234 A 3

.PDF文档 专利 一种模型蒸馏训练方法、装置、电子设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种模型蒸馏训练方法、装置、电子设备及存储介质 第 1 页 专利 一种模型蒸馏训练方法、装置、电子设备及存储介质 第 2 页 专利 一种模型蒸馏训练方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:43:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。