金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210429989.2 (22)申请日 2022.04.22 (66)本国优先权数据 202110468480.4 2021.04.28 CN (71)申请人 中国科学院软件研究所 地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人 马翠霞 左然 刘舫 陈科圻  张拯明 邓小明 王宏安  (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 专利代理师 李文涛 (51)Int.Cl. G06F 16/732(2019.01) G06F 16/783(2019.01)G06N 3/04(2006.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于草图的场景级细粒度视频检索方 法及系统 (57)摘要 本发明公开了一种基于草图的场景级细粒 度视频检索方法及系统, 属于计算机视觉领域, 通过提取草图特征, 构建基于外观特征和类别特 征的草图空间结构图; 提取视频特征, 构建基于 视频时序信息、 外观特征和类别特征的视频时空 结构图, 利用自适应帧采样策略进行视频帧采 样, 先对视频帧稀疏采样, 再利用草图 ‑视频关联 关系模型进行视频帧筛选, 利用草图 ‑视频检索 模型中完成视频细粒度检索。 本发 明将出现在不 同时间段的物体压缩至同一张草图中, 进行场景 级的视频内容概括, 检索出与草图背景元素、 物 体外观特征与动作类型均一 致的视频。 权利要求书2页 说明书7页 附图2页 CN 114969430 A 2022.08.30 CN 114969430 A 1.一种基于草图的场景级细粒度视频检索方法, 其特 征在于, 包括以下步骤: 对于绘制的场景草图, 获取草图特征, 包括整体外观特征, 以及草图上实例的外观特 征、 类别特征和位置特征; 根据这些草图特征构建草图空间结构图, 该草图空间结构图包括 草图外观结构图和草图类别结构图, 该草图外观结构图是由表示 实例的外观特征的实例节 点、 表示草图整体外观特征的一个场景节点和根据位置特征计算得到的表示距离的边共同 构成, 该草图类别结构图是由表示实例的类型特征的实例节点和根据位置特征计算得到的 表示距离的边共同构成; 根据场景草图, 采用自适应帧采样策略对视频进行采样, 即先对视频帧进行稀疏采样 得到候选视频帧, 再对该候选视频帧利用训练好的草图 ‑视频关联关系模型进行视频帧筛 选, 筛选出与场景草图最相关的视频帧并编码成视频; 对上述编码的视频, 获取视频特征和时序信息, 视频特征包括视频图像中整体外观特 征、 每个实例的外观特征、 类型特征和位置特征; 根据这些视频特征和时序信息构建视频时 空结构图, 该视频时空结构图包含视频空间结构图和视频时序结构图, 该视频空间结构图 包括视频外观结构图和视频类别结构图, 该视频外观结构图是由表示实例的外观特征的实 例节点、 表示图像整体外观特征的一个场景节点和根据位置特征计算得到的表示距离的边 共同构成, 该视频类别结构图是由表示 实例的类型特征的实例节点和根据位置特征计算得 到的表示距离的边共同构成; 该视频时序结构图根据所述时序信息、 实例节点和场景节点 构成; 将草图特征和视频特征输入到训练好的草图 ‑视频检索模型中进行视频检索, 该草图 ‑ 视频检索 模型包含外观分支和类别分支, 该外观分支根据草图外观结构图和视频外观结构 图生成视频检索结果, 该类别分支 根据草图类别结构图和视频类别结构图生成视频检索结 果; 将该两个 检索结果进行外观特 征和类别特 征的融合, 得到最终的视频检索结果。 2.如权利要求1所述的方法, 其特征在于, 对于绘制的场景草图, 采用预训练的 GoogLeNet  Inception ‑V3提取草图中的每个实例的外观特征, 采用Bert模型编码每个实例 的类别特征, 采用Tr ansformer 中提到的相对位置处理方法并使用正弦和余弦函数获得位 置特征, 采用Distance ‑IOU根据位置特 征计算实例之间的距离 。 3.如权利要求1所述的方法, 其特征在于, 采用两层的GCN网络进行草图特征更新, 该 GCN网络通过加入SE模块对局部的实例节点进行 特征融合。 4.如权利要求1所述的方法, 其特征在于, 对上述编码的视频, 采用ResNet ‑152提取视 频帧中的每个实例的外观特征, 采用Bert模型编码每个实例的类别特征, 采用Transformer 中提到的相对位置处理方法并使用正弦和余弦函数获得位置特征, 采用Distance ‑IOU根据 位置特征计算实例之间的距离 。 5.如权利要求1所述的方法, 其特征在于, 采用两层的GCN网络结合SE模块分别对视频 空间结构图和视频时序结构图进行 特征更新。 6.如权利要求1所述的方法, 其特征在于, 草图 ‑视频关联关系模型基于三元组网络构 建, 其训练方法为: 利用训练集中草图和视频帧之间的匹配关系, 由草图、 视频帧正样本和 视频帧负样本组成三元组匹配对, 对草图 ‑视频关联关系模型进 行训练, 通过训练学习草图 和视频图像之间的语义和视 觉关联关系。 7.如权利要求1所述的方法, 其特征在于, 草图 ‑视频检索模型基于三元组网络构建, 其权 利 要 求 书 1/2 页 2 CN 114969430 A 2训练方法为: 利用训练集中待检索草图特征和视频特征, 构建由草图特征、 视频正样本特征 和视频负样本特征 组成的三元组匹配对, 对草图 ‑视频检索 模型进行训练, 计算最 终的损失 函数, 通过调整模型参数使得损失降到最小, 完成训练。 8.如权利要求7所述的方法, 其特征在于, 所述最终的损失函数是由多个batch的损失 函数进行平均得到, 每个batch的损失函数为草图与视频正样本之间的距离和草图与负样 本之间的距离的差值, 再加上正负 样本本身的间隔外, 进行最大化。 9.如权利要求1所述的方法, 其特征在于, 将草图 ‑视频检索模型的两个分支 的检索结 果进行外观特征和类别特征的融合, 是指对类别特征和外观特征分别得到的草图和视频之 间的欧氏距离进行融合。 10.一种基于草图的场景级细粒度视频检索系统, 其特 征在于, 包括: 草图检索视频的交互界面, 包含用户输入界面和视频展示界面, 该用户输入界面用于 提供场景草图绘制工具以及绘制场景草图的面板, 该视频展示界面用于展示检索出的视 频; 草图特征获取模块, 用于获取草图整体外观特征, 以及草图上实例的外观特征、 类别特 征和位置特 征; 草图特征更新模块, 采用两层的GCN网络结合SE模块对草图特征进行更新并对局部的 实例节点进行 特征融合; 视频特征获取模块, 用于获取视频图像整体外观特征, 以及图像上实例的外观特征、 类 别特征和位置特 征, 以及时序信息; 视频特征更新模块, 用于采用两层的GCN网络结合SE模块分别对视频空间结构图和视 频时序结构图进行 特征更新; 自适应帧采样模块, 用于根据场景草图, 采用自适应帧采样策略进行视频帧采样, 即先 通过稀疏采样得到候选视频帧, 再通过基于三元 组网络构建的草图 ‑视频关联关系模型, 并 经训练实现对该候选 视频帧进行筛 选, 筛选出与场景草图最相关的视频帧并编码成视频; 草图‑视频检索模型, 基于三元组网络构建并通过训练完成, 包含外观分支和类别分 支, 用于根据输入的草图特征和视频特征进 行细粒度视频检索, 其中, 外观分支 根据草图外 观结构图和视频外观结构图生成视频检索结果, 类别分支根据草图类别结构图和视频类别 结构图生成视频检索结果, 将该两个检索结果进行外观特征和类别特征 的融合, 得到最终 的视频检索结果。权 利 要 求 书 2/2 页 3 CN 114969430 A 3

PDF文档 专利 一种基于草图的场景级细粒度视频检索方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于草图的场景级细粒度视频检索方法及系统 第 1 页 专利 一种基于草图的场景级细粒度视频检索方法及系统 第 2 页 专利 一种基于草图的场景级细粒度视频检索方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:59:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。