金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210507712.7 (22)申请日 2022.05.10 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 舒畅 陈又新  (74)专利代理 机构 深圳市明日今典知识产权代 理事务所(普通 合伙) 44343 专利代理师 王杰辉 罗志强 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/74(2022.01) G06V 10/40(2022.01) G06K 9/62(2022.01) (54)发明名称 图像描述信息生成模型的训练方法、 装置、 设备及介质 (57)摘要 本申请涉及图像识别领域, 特别是涉及到一 种图像描述信息生成模型的训练方法、 装置、 设 备及介质, 所述方法包括: 获取标记数据集与未 标记数据集; 识别所述标记数据集中的第一图 像, 获取所述第一图像的目标及对应的目标类别 标签; 根据所述目标类别标签提取所述第一图像 的区域特征, 并根据所述区域特征 获取模型对所 述第一图像的生成描述; 计算所述生成描述与真 实描述的交叉熵, 根据所述交叉熵修改生成参 数; 将所述未标记数据集输入修改后的模型, 得 到所述未标记数据集中第二图像的描述信息; 计 算所述描述信息的目标性与准确性, 根据所述目 标性与准确性确定所述生 成参数, 完成所述模型 的训练。 本申请能生成更精确和富有视觉内容的 图像描述。 权利要求书2页 说明书11页 附图6页 CN 114842299 A 2022.08.02 CN 114842299 A 1.一种图像描述信息生成模型的训练方法, 其特 征在于, 所述方法包括: 获取标记数据集与未 标记数据集; 识别所述标记数据集中的第 一图像, 获取所述第 一图像的目标及所述目标对应的目标 类别标签; 根据所述目标类别标签提取所述第 一图像的区域特征, 并根据 所述区域特征获取模型 对所述第一图像的生成描述; 计算所述 生成描述与真实描述的交叉熵, 根据所述交叉熵修改所述模型的生成参数; 将所述未标记数据集输入修改后的模型, 得到所述未标记数据集中第 二图像的描述信 息; 计算所述描述信 息的目标性与准确性, 根据 所述目标性与准确性确定所述模型的生成 参数, 以完成所述模型的训练。 2.根据权利要求1所述的图像描述信 息生成模型的训练方法, 其特征在于, 所述计算所 述生成描述与真实描述的交叉熵, 根据所述交叉熵修改所述模型的生成参数, 包括: 计算所述 生成描述与真实描述的交叉熵; 若所述交叉熵不满足预设条件, 获取 所述生成描述的上 下文信息; 根据所述上下文信 息依次对所述生成描述中的待替换的词进行替换, 并修改所述生成 参数, 直至替换后的所述 生成描述与真实描述的交叉熵满足预设条件。 3.根据权利要求1所述的图像描述信 息生成模型的训练方法, 其特征在于, 所述将所述 未标记数据集输入修改后的模型, 得到所述未标记数据集中第二图像的描述信息之后, 所 述方法还 包括: 通过BERT算法对描述信息中的生成词进行遮盖; 获取所述描述信息的上 下文信息; 根据所述描述信息的上 下文信息确定所述 生成词的替换词; 将所述生成词修改为所述 替换词, 得到修改后的第二图像的描述信息 。 4.根据权利要求3所述的图像描述信 息生成模型的训练方法, 其特征在于, 所述将所述 生成词修改为所述 替换词, 得到修改后的第二图像的描述信息, 包括: 计算包括所述 生成词的描述信息与第二图像的第一 余弦相似度; 计算包括所述 替换词的描述信息与第二图像的第二 余弦相似度; 若所述第二余弦相似度 大于所述第 一余弦相似度, 将所述描述信 息中的生成词修改为 所述替换词, 得到修改后的第二图像的描述信息 。 5.根据权利要求1所述的图像描述信 息生成模型的训练方法, 其特征在于, 所述根据 所 述目标类别标签提取 所述第一图像的区域特 征之前, 所述方法还 包括: 获取边界框的起始位置坐标; 基于线性回归学习所述位置坐标中的变量, 使得所述边界框逼近真实框, 得到所述边 界框的目标位置坐标; 根据所述目标位置坐标的边界框确定所述第一图像的区域范围信息 。 6.根据权利要求1所述的图像描述信 息生成模型的训练方法, 其特征在于, 所述计算所 述生成描述与真实描述的交叉熵, 根据所述交叉熵修改所述模型 的生成参数之后, 所述方 法还包括:权 利 要 求 书 1/2 页 2 CN 114842299 A 2计算所述 生成描述与所述第一图像的关联性分值; 获取预设的关联性评价 规则; 根据所述关联性评价 规则计算所述关联性分值的评分值; 根据所述评分值 修改所述模型的生成参数。 7.根据权利要求1所述的图像描述信 息生成模型的训练方法, 其特征在于, 所述计算所 述描述信息的目标性与准确 性, 根据所述 目标性与准确 性确定所述模型 的生成参数, 以完 成所述模型的训练, 包括: 获取预设定的奖励机制与惩罚机制; 根据所述奖励机制计算所述目标性与所述 准确性的第一得分; 根据所述 惩罚机制计算所述目标性与所述 准确性的第二得分; 根据所述第一得分、 所述第二得分修改并确定所述模型的生成参数, 以完成所述模型 的训练。 8.一种图像描述信息生成模型的训练装置, 其特 征在于, 所述装置包括: 数据获取模块, 用于获取 标记数据集与未 标记数据集; 目标识别模块, 用于识别所述标记数据集中的第一图像, 获取所述第一图像的目标及 所述目标对应的目标类别标签; 特征描述模块, 用于根据所述目标类别标签提取所述第一图像的区域特征, 并根据所 述区域特 征获取模型对所述第一图像的生成描述; 参数调节模块, 用于计算所述生成描述与真实描述的交叉熵, 根据所述交叉熵修改所 述模型的生成参数; 图像描述模块, 用于将所述未标记数据集输入修改后的模型, 得到所述未标记数据集 中第二图像的描述信息; 参数确定模块, 用于计算所述描述信息的目标性与准确性, 根据所述目标性与准确性 确定所述模型的生成参数, 以完成所述模型的训练。 9.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处理器执行所述计算机程序时实现权利要求 1至7任一项 所述图像描述信息生 成模 型的训练方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7任一项所述图像描述信息生成模型的训练方法。权 利 要 求 书 2/2 页 3 CN 114842299 A 3

PDF文档 专利 图像描述信息生成模型的训练方法、装置、设备及介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图像描述信息生成模型的训练方法、装置、设备及介质 第 1 页 专利 图像描述信息生成模型的训练方法、装置、设备及介质 第 2 页 专利 图像描述信息生成模型的训练方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:59:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。