金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211177194.3 (22)申请日 2022.09.26 (71)申请人 北京达佳互联信息技 术有限公司 地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人 王伟农 戴宇荣 陶鑫  (74)专利代理 机构 北京中博世 达专利商标代理 有限公司 1 1274 专利代理师 申健 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 一种视频分割模型训练方法、 装置、 设备及 存储介质 (57)摘要 本公开关于一种视频分割模 型训练方法、 装 置、 设备及存储介质, 涉及计算机技术领域, 可以 提高视频分割模 型的精准度。 该视频分割模型训 练方法包括: 获取第二视频信息和多个第一视频 信息; 基于待训练的视频分割模 型中的第一编码 网络, 确定多个第一编码结果; 基于辅助解码网 络, 确定多个第一解码结果; 基于每个第一解码 结果, 以及对应的第一视频信息中的历史视频帧 的实际掩膜对象, 确定第一损失函数; 基于所述 待训练的视频分割模型中的当前视频帧分割子 模型和多个第一编码结果, 确定第二损失函数; 基于第一损失函数和第二损失函数调整辅助解 码网络和待训练的视频分割模型的模 型参数, 得 到目标视频分割模型。 权利要求书3页 说明书18页 附图9页 CN 115496905 A 2022.12.20 CN 115496905 A 1.一种视频分割模型训练方法, 其特 征在于, 包括: 获取第二视频信 息和多个第 一视频信 息; 所述第 二视频信 息包括待处理视频的当前视 频帧和为所述当前视频帧标注的参考掩膜对 象; 每个第一视频信息包括: 所述待处理视频 的一个历史视频帧和所述 一个历史视频帧的实际掩膜对象; 基于待训练的视频分割 模型中的第 一编码网络, 对每个第 一视频信 息中的历史视频帧 进行编码处 理, 以得到与所述多个第一视频信息一 一对应的多个第一编码结果; 基于辅助解码网络, 对所述多个第一编码结果中的每个第一编码结果进行解码处理, 以得到与所述多个第一视频信息一 一对应的多个第一 解码结果; 基于所述多个第一解码结果中的每个第 一解码结果, 以及与 所述每个第 一解码结果对 应的第一视频信息中的历史视频帧的实际掩膜对象, 确定第一损失函数; 基于所述待训练的视频分割模型中的当前视频帧分割子模型和所述多个第一编码结 果, 对所述当前视频帧进 行视频分割处理, 得到所述当前视频帧的实际掩膜对象, 并基于所 述当前视频帧的实际掩膜对象, 与所述当前视频帧的参 考掩膜对象, 确定第二损失函数; 基于所述第一损失函数和所述第二损失函数调整所述辅助解码网络和所述待训练的 视频分割模型 的模型参数, 直至达到预设训练结束条件, 并将训练结束时的视频分割模型 作为目标视频分割模型; 所述目标视频分割模型用于确定待处 理视频帧的掩膜对象。 2.根据权利要求1所述的视频分割模型训练方法, 其特征在于, 所述基于所述多个第 一 解码结果中的每个第一解码结果, 以及与所述每个第一解码结果对应的第一视频信息中的 历史视频帧的实际掩膜对象, 确定第一损失函数, 包括: 基于所述每个第一解码结果, 以及与所述每个第 一解码结果对应的第 一视频信 息中的 历史视频帧的实际掩膜对象, 确定与所述多个第一 解码结果 一一对应的多个差异信息; 基于所述多个差异信息和预设损失函数, 确定所述第一损失函数。 3.根据权利要求1所述的视频分割模型训练方法, 其特征在于, 所述基于所述待训练 的 视频分割模型中的当前视频帧分割子模型和所述多个第一编码结果, 对所述当前视频帧进 行视频分割处 理, 得到所述当前视频帧的实际掩膜对象, 包括: 基于所述当前视频帧分割子模型中的第二编码网络, 对所述当前视频帧进行编码处 理, 以得到第二编码结果; 基于所述第二编码结果和多个第一编码结果, 生成视频帧拼接特 征; 基于当前视频帧分割子模型中的解码网络, 对所述视频帧拼接特征进行解码处理, 以 得到第二 解码结果, 所述第二 解码结果指示所述当前视频帧的实际掩膜对象。 4.根据权利要求3所述的视频分割模型训练方法, 其特征在于, 所述第 一编码结果中包 括: 用于标识所述历史视频帧的第一历史特征、 用于存储所述历史视频帧的细节信息的第 二历史特征; 所述历史视频帧的细节信息用于生成所述历史视频帧的参考掩膜对 象; 所述 第二编码结果中包括: 用于标识所述当前视频帧的第一当前特征、 用于存储所述当前视频 帧的细节信息的第二当前特征; 所述当前视频帧的细节信息用于生成所述当前视频帧的实 际掩膜对象; 基于所述第二编码结果和多个第一编码结果, 生成视频帧拼接特 征, 包括: 基于组合函数, 确定第一组合特征和第二组合特征; 所述第 一组合特征包括: 与所述多 个第一编码结果一一对应的多个第一历史特征; 所述第二组合特征包括: 与所述多个第一权 利 要 求 书 1/3 页 2 CN 115496905 A 2编码结果 一一对应的多个第二历史特 征; 确定所述第一组合特 征与所述第一当前 特征之间的相似度; 确定所述相似度与 所述第二组合特征的乘积, 将所述乘积与 所述第二当前特征进行拼 接, 以得到所述视频帧拼接特 征。 5.根据权利要求1 ‑4任一项所述的视频分割模型训练方法, 其特征在于, 所述基于待训 练的视频分割模型中的第一编码网络, 对每个第一视频信息中的历史视频帧进行编码处 理, 以得到与所述多个第一视频信息一 一对应的多个第一编码结果, 包括: 将所述每个第 一视频信 息中的历史视频帧输入到所述第 一编码网络 中的编码层, 以得 到与所述多个第一视频信息一 一对应的多个当前编码结果; 将所述多个当前编码结果中的每个当前编码结果输入到共享网络输出层, 以得到所述 多个第一编 码结果; 所述共享网络输出层为所述第一编 码网络与所述当前视频帧分割子模 型中的编码网络共享的网络输出层; 所述网络输出层包括: 卷积输出层, 和/或正则化输出 层。 6.根据权利要求3或4所述的视频分割模型训练方法, 其特征在于, 所述基于所述当前 视频帧分割子模型中的第二编码网络, 对所述当前视频帧进行编码处理, 以得到第二编码 结果, 包括: 将所述当前视频帧输入到所述第 二编码网络 中的编码层, 以得到所述当前视频帧的当 前编码结果; 将所述当前编码结果输入到共享网络输出层, 以得到所述第二编码结果; 所述共享网 络输出层为所述第一编 码网络与所述第二编码网络共享的网络输出层; 所述网络输出层包 括: 卷积输出层, 和/或正则化输出层。 7.根据权利要求3或4所述的视频分割模型训练方法, 其特征在于, 所述第二编码网络 的参数类型的数量小于所述第一编码网络的参数类型的数量。 8.一种视频分割模型训练装置, 其特 征在于, 包括: 获取 单元和处理单元; 所述获取单元, 用于获取第二视频信息和多个第一视频信息; 所述第二视频信息包括 待处理视频的当前视频帧和为所述当前视频帧标注的参考掩膜对象; 每个第一视频信息包 括: 所述待处 理视频的一个历史视频帧和所述 一个历史视频帧的实际掩膜对象; 所述处理单元, 用于基于待训练的视频分割模型中的第一编码网络, 对每个第一视频 信息中的历史视频帧进行编 码处理, 以得到与所述多个第一视频信息一一对应的多个第一 编码结果; 所述处理单元, 还用于基于辅助解码网络, 对所述多个第一编码结果中的每个第一编 码结果进行解码处 理, 以得到与所述多个第一视频信息一 一对应的多个第一 解码结果; 所述处理单元, 还用于基于所述多个第一解码结果中的每个第一解码结果, 以及与所 述每个第一解码结果对应的第一视频信息中的历史视频帧的实际掩膜对象, 确定第一损失 函数; 所述处理单元, 还用于基于所述待训练的视频分割 模型中的当前视频帧分割子模型和 所述多个第一编码结果, 对所述当前视频帧进行视频分割处理, 得到所述当前视频帧的实 际掩膜对象, 并基于所述当前视频帧的实际掩膜对象, 与所述当前视频帧的参考掩膜对象, 确定第二损失函数;权 利 要 求 书 2/3 页 3 CN 115496905 A 3

PDF文档 专利 一种视频分割模型训练方法、装置、设备及存储介质

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频分割模型训练方法、装置、设备及存储介质 第 1 页 专利 一种视频分割模型训练方法、装置、设备及存储介质 第 2 页 专利 一种视频分割模型训练方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:59:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。