金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210101257.0 (22)申请日 2022.01.27 (71)申请人 西安交通大 学 地址 710049 陕西省西安市咸宁西路28号 申请人 宁波市舜安人工智能研究院 (72)发明人 王乐 翟元浩 周三平 陈仕韬  辛景民 郑南宁  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 李鹏威 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/44(2022.01) G06V 10/62(2022.01)G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称 基于集合预测的时序动作定位方法、 系统、 设备及介质 (57)摘要 本发明公开了一种基于集合预测的时序动 作定位方法、 系统、 设备及介质, 所述方法包括以 下步骤: 获取编码后的视频特征序列; 进行混合 位置编码, 获得混合位置编码后的视频特征序 列; 输入预训练好的Tran sformer编码器, 获得全 局融合后的视频特征序列; 输入 预训练好的分类 网络, 获得关键视频片段以及每个视频片段的分 类分数; 输入预训练好的动作定位网络, 获得动 作实例的开始和结束边界偏移量; 输入 预训练好 的背景定位网络, 获得背景实例的两个边界的偏 移量。 本发 明能够避免大量类不可知的动作提案 的生成, 最终可提高推理速度同时实现优异的时 序动作定位 性能。 权利要求书2页 说明书11页 附图2页 CN 114708523 A 2022.07.05 CN 114708523 A 1.一种基于集 合预测的时序动作定位方法, 其特 征在于, 包括以下步骤: 获取待时序动作定位的视频序列, 分解为若干视频片段并分别编码, 获取编码后的视 频特征序列; 将编码后的视频特征序列的每个视频片段进行混合位置编码, 获得混合位置编码后的 视频特征序列; 其中, 所述混合位置编码用于将每个视频片段的时序位置信息编码至原始 特征内; 将混合位置编码后的视频特征序列输入预训练好的Transformer编码器, 获得全局融 合后的视频特征序列; 其中, 所述预训练好的Transformer编码器用于将 视频全局特征与每 个视频片段 特征融合; 将全局融合后的视频特征序列输入预训练好的分类网络, 获得关键视频片段以及每个 视频片段的分类分数; 将全局融合后的视频特征序列输入预训练好的动作定位网络, 获得 动作实例的开始和结束边界偏移 量; 将全局融合后的视频特征序列输入预训练好的背 景定 位网络, 获得背景实例的两个边界的偏移量。 2.根据权利要求1所述的一种基于集合预测的时序动作定位方法, 其特征在于, 所述将 编码后的视频特征序列的每个视频片段进 行混合位置编 码, 获得混合位置编码后的视频特 征序列的步骤具体包括: 将所述视频特征序列输入预训练好的卷积神经网络, 预测获得每个视频片段的动作概 率、 开始概率和结束概率, 获得预训练好的卷积神经网络优化后的视频特征序列; 其中, 所 述动作概率用于表示视频片段属于动作的持续阶段的可能性, 所述开始 概率用于表示视频 片段属于动作的开始阶段的可能性, 所述结束概率用于表示视频片段属于动作的结束阶段 的可能性。 3.根据权利要求1或2所述的一种基于集合预测的时序动作定位方法, 其特征在于, 所 述混合位置编码的过程具体表示 为: Pt, 4i=sin((t‑1)/100004i/D), Pt, 4i+1=cod((t‑1)/100004i/D), Pt, 4i+2=sin((t‑1)/T/100004i/D), Pt, 4i+3=cod((t‑1)/f/100004i/D), 式中, D为每个视频片段特征的维度, t和i分别表示视频片段的时序位置索引和特征维 度索引, T表示视频序列长度, P为t时刻下的视频片段的混合 位置编码信息 。 4.根据权利要求1所述的一种基于集合预测的时序动作定位方法, 其特征在于, 所述预 训练好的Transformer编码器为标准的Transformer编码器; 所述标准的Transformer编码 器包含两个残差结构的线性映射层和一个自注意力模块。 5.根据权利要求1所述的一种基于集合预测的时序动作定位方法, 其特征在于, 所述将 全局融合后的视频特征序列输入预训练好的分类网络, 获得关键视频片段以及每个视频片 段的分类分数的步骤具体包括: 采用由三层卷积神经网络组成的分类网络; 训练分类网络的损失函数为匈牙利损失函 数, 以及Focal Loss和GIoU组成的匹配损失函数; 将全局融合后的视频特征序列输入预训练好的分类网络, 获得每个视频片段的分类分 数, 并利用二部匹配法获得关键 视频片段。权 利 要 求 书 1/2 页 2 CN 114708523 A 26.根据权利要求1所述的一种基于集合预测的时序动作定位方法, 其特征在于, 所述将 全局融合后的视频特征序列输入预训练好的动作定位网络, 获得动作实例的开始和结束边 界偏移量的步骤具体包括: 采用由三层卷积神经网络组成的动作定位网络, 训练动作定位网络的损失函数为匈牙 利损失函数和一对多的回归损失函数; 将全局融合后的视频特征序列输入预训练好的动作定位网络, 获得动作实例的开始边 界和结束边界的偏移量。 7.根据权利要求1所述的一种基于集合预测的时序动作定位方法, 其特征在于, 所述将 全局融合后的视频特征序列输入预训练好的背 景定位网络, 获得背景实例的两个边界的偏 移量的步骤具体包括: 采用由三层卷积神经网络组成的背景定位网络, 训练背景定位网络的损失函数为匈牙 利损失函数和一对多的回归损失函数; 将全局融合后的视频特征序列输入预训练好的背景定位网络, 获得背景实例的开始边 界和结束边界的偏移量。 8.一种基于集 合预测的时序动作定位系统, 其特 征在于, 包括: 视频特征序列获取模块, 用于获取待时序动作定位的视频序列, 分解为若干视频片段 并分别编码, 获取编码后的视频 特征序列; 混合位置编码模块, 用于将编码后的视频特征序列的每个视频片段进行混合位置编 码, 获得混合位置编 码后的视频特征序列; 其中, 所述混合位置编码用于将 每个视频片段的 时序位置信息编码至原 始特征内; 融合模块, 用于将混合位置编码后的视频特征序列输入预训练好的Transformer编码 器, 获得全局融合后的视频特征序列; 其中, 所述预训练好的Tr ansformer编码器用于将视 频全局特 征与每个视频片段 特征融合; 结果获取模块, 用于将全局融合后的视频特征序列输入预训练好的分类网络, 获得关 键视频片段以及每个视频片段的分类分数; 将全局融合后的视频特征序列输入预训练好的 动作定位网络, 获得动作实例的开始和结束边界偏移量; 将全局融合后的视频特征序列输 入预训练好的背景定位网络, 获得背景实例的两个边界的偏移量。 9.一种电子设备, 包括: 处 理器; 存储器, 用于存 储计算机程序指令; 其特 征在于, 所述计算机程序指令由所述处理器加载并运行时, 所述处理器执行权利要求1至7中任 一项所述的基于集 合预测的时序动作定位方法。 10.一种可读存储介质, 所述可读存储介质存储有计算机程序指令, 其特征在于, 所述 计算机程序指 令被处理器加载并运行时, 所述处理器执行权利要求 1至7中任一项 所述的基 于集合预测的时序动作定位方法。权 利 要 求 书 2/2 页 3 CN 114708523 A 3

PDF文档 专利 基于集合预测的时序动作定位方法、系统、设备及介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于集合预测的时序动作定位方法、系统、设备及介质 第 1 页 专利 基于集合预测的时序动作定位方法、系统、设备及介质 第 2 页 专利 基于集合预测的时序动作定位方法、系统、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。