金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210428132.9 (22)申请日 2022.04.22 (71)申请人 北京爱奇艺科技有限公司 地址 100080 北京市海淀区海淀北一 街2号 鸿城拓展大厦10、 1 1层 (72)发明人 李冠楠  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 吕俊秀 (51)Int.Cl. G06F 16/783(2019.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/74(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 一种针对跨模态视频检索模型的训练方法 及装置 (57)摘要 本发明实施例提供了一种针对跨模态视频 检索模型的训练方法及装置, 通过 获取用于表达 视频序列的特征的多个视频序列特征向量; 切分 文本序列生成分词和分词序列; 提取针对分词的 多个文本序列特征向量, 和, 针对分词序列的文 本标签特征向量; 合并多个视频序列特征向量生 成第一目标视觉特征向量; 合并多个文本序列特 征向量生 成第一目标文本特征向量; 将第一目标 视觉特征向量和第一目标文本特征向量分别映 射至隐藏向量空间和标签向量空间, 并计算出隐 含特征向量相似度和标签特征向量相似度; 基于 文本标签特征向量、 隐含特征向量相似度、 标签 特征向量相似度确定检索结果, 从而实现了中文 或中英文 文本搜索视频的跨模态检索功能。 权利要求书3页 说明书21页 附图4页 CN 114996511 A 2022.09.02 CN 114996511 A 1.一种针对跨模态视频检索模型的训练方法, 其特征在于, 所述跨模态视频检索模型 包括隐藏向量空间、 标签向量空间, 所述方法包括: 获取视频流中用于表达视频序列的特征的多个视频序列 特征向量; 所述视频序列 具有 对应的文本序列; 切分所述文本序列, 生成分词和由所述分词组成的分词序列; 提取针对所述分词的多个文本序列特征向量, 和, 针对所述分词序列的文本标签特征 向量; 合并所述多个视频序列特 征向量, 并生成第一目标视 觉特征向量; 合并所述多个文本序列特 征向量, 并生成第一目标文本特 征向量; 将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空 间, 并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征 向量相似度; 将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空 间, 并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征 向量相似度; 基于所述文本标签特征向量、 所述 隐含特征向量相似度、 所述标签特征向量相似度确 定检索结果。 2.根据权利要求1所述的方法, 其特征在于, 所述跨模态视频检索模型包括多个不同尺 度的循环神经网络, 所述合并所述多个视频序列特征向量, 并生成第一 目标视觉特征向量 的步骤包括: 采用所述多个视频序列特征向量通过所述多个不同尺度的循环神经网络生成多个第 二目标视觉特征向量; 所述多个第二目标视觉特征向量与所述多个不同尺度的循环神经网 络一一对应; 拼接多个所述第二目标视 觉特征向量, 并生成第一目标视 觉特征向量。 3.根据权利要求2所述的方法, 其特征在于, 所述合并所述多个文本序列特征向量, 并 生成第一目标文本特 征向量的步骤 包括: 采用所述多个文本序列特征向量通过所述多个不同尺度的循环神经网络生成多个第 二目标文本特征向量; 所述多个第二目标文本特征向量与所述多个不同尺度的循环神经网 络一一对应; 拼接多个所述第 二目标文本特征向量和所述文本标签特征向量, 并生成第 一目标文本 特征向量。 4.根据权利要求1所述的方法, 其特征在于, 所述将所述第 一目标视觉特征向量和所述 第一目标文本特征向量映射至所述隐藏向量空间, 并计算出针对于所述第一目标视觉特征 向量和所述第一目标文本特 征向量的隐含特 征向量相似度的步骤 包括: 分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述 隐藏向 量空间, 生成隐含视 觉向量和隐含文本向量; 确定所述隐含视 觉向量和所述隐含文本向量之间的第一向量距离; 采用所述第一向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文 本特征向量的隐含特 征向量相似度。权 利 要 求 书 1/3 页 2 CN 114996511 A 25.根据权利要求4所述的方法, 其特征在于, 所述跨模态视频检索模型包括多层全连接 神经网络, 所述多层全连接神经网络具有对应的网络参数, 在所述确定所述隐含视觉 向量 和所述隐含文本向量之间的第一向量距离的步骤之前, 还 包括: 采用所述隐含视觉向量和所述隐含文本向量生成第 一目标损失函数; 所述第 一目标损 失函数包括第一损失函数值; 通过控制所述网络参数, 降低所述第一损失函数值。 6.根据权利要求1或4所述的方法, 其特征在于, 所述将所述第一目标视觉特征向量和 所述第一目标文本特征向量映射至所述标签向量空间, 并计算出针对于所述第一目标视觉 特征向量和所述第一目标文本特 征向量的标签特 征向量相似度的步骤 包括: 分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向 量空间, 生成标签视 觉向量和标签文本向量; 确定所述标签视 觉向量和所述标签文本向量之间的第二向量距离; 采用所述第二向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文 本特征向量的标签特 征向量相似度。 7.根据权利要求6所述的方法, 其特征在于, 所述跨模态视频检索模型包括多层全连接 神经网络, 所述多层全连接神经网络具有对应的网络参数, 在所述确定所述标签视觉 向量 和所述标签文本向量之间的第二向量距离的步骤之前, 还 包括: 采用所述标签视 觉向量和所述标签文本向量 生成第二目标损失函数; 采用所述标签视 觉向量和所述文本标签特 征向量生成第三目标损失函数; 采用所述标签文本向量和所述文本标签特 征向量生成第四目标损失函数; 通过控制所述网络参数, 降低所述第二损失函数值, 和, 所述第 三损失函数值, 和, 所述 第四损失函数值。 8.根据权利要求1所述的方法, 其特征在于, 所述基于所述文本标签特征向量、 所述 隐 含特征向量相似度、 所述标签特 征向量相似度确定检索结果 步骤进一 步包括: 确定所述第一目标文本特 征向量和所述文本标签特 征向量之间的分词相似度; 对所述分词相似度加权, 并计算出权 重系数; 采用所述权重系数、 所述隐含特征向量相似度和所述标签特征向量相似度计算出检索 结果。 9.根据权利要求1所述的方法, 其特征在于, 所述获取视频流中用于表达视频序列的特 征的多个视频序列特 征向量的步骤 包括: 按固定帧数间隔确定 视频流中的多个目标帧; 提取与所述多个目标帧对应的目标帧画面的视频序列特征向量作为多个视频序列特 征向量。 10.根据权利要求1所述的方法, 其特征在于, 所述跨模态视频检索模型包括用于获取 所述多个视频序列特征向量的视觉基础网络模型, 用于获取所述多个文本序列特征向量的 多语言文本模型, 视觉特征序列融合模块, 文本特征序列融合模块, 特征一致性学习模块, 标签一致性学习模块, 所述跨模态视频检索模型具有针对所述视觉特征序列融合模块, 所 述文本特征序列融合模块, 所述特征一致性学习模块, 所述标签一致性学习模块的参数调 整阶段, 所述跨模态视频检索 模型包括针对于所述多语言文本模型与所述视觉基础网络模权 利 要 求 书 2/3 页 3 CN 114996511 A 3

PDF文档 专利 一种针对跨模态视频检索模型的训练方法及装置

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种针对跨模态视频检索模型的训练方法及装置 第 1 页 专利 一种针对跨模态视频检索模型的训练方法及装置 第 2 页 专利 一种针对跨模态视频检索模型的训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:59:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。