金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210494013.3 (22)申请日 2022.04.29 (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 徐常胜 姚涵涛  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 周淑娟 (51)Int.Cl. G06V 40/10(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/74(2022.01)G06V 10/40(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G10L 25/03(2013.01) G10L 25/51(2013.01) (54)发明名称 基于音视频融合的地震幸存者识别方法及 装置 (57)摘要 本申请提供一种基于音视频融合的地震幸 存者识别方法及装置, 方法包括: 确定目标视频, 所述目标视频包括N个视频片段, N为正整数; 提 取所述N个视频片段中各个视频片段对应的音 频 特征和视觉特征; 基于自注意力机制和跨模态注 意力机制, 融合所述各个视频片段对应的音 频特 征和视觉 特征的同模态特征和跨模态特征, 确定 各个视频片段对应的时序音频特征和时序视觉 特征; 基于所述时序音频特征和时序视觉特征, 确定所述目标视频的地震幸存者识别结果, 提升 了幸存者识别的精度。 权利要求书3页 说明书15页 附图3页 CN 114926857 A 2022.08.19 CN 114926857 A 1.一种基于音视频融合的地震幸存者识别方法, 其特 征在于, 包括: 确定目标视频, 所述目标视频包括 N个视频片段, N 为正整数; 提取所述N个视频片段中各个视频片段对应的音频 特征和视觉特征; 基于自注意力 机制和跨模态注意力 机制, 融合所述各个视频片段对应的音频特征和视 觉特征的同模态特征和跨模态特征, 确定各个视频片段对应的时序音频特征和时序视觉特 征; 基于所述时序音频 特征和时序视 觉特征, 确定所述目标视频的地震幸存者识别结果。 2.根据权利要求1所述的基于音视频融合的地震幸存者识别方法, 其特征在于, 所述提 取所述N个视频片段中各个视频片段对应的音频 特征和视觉特征, 包括: 确定所述 N个视频片段中各个视频片段对应的音频信息和视 觉信息; 提取所述音频信息和视觉信息的骨干特征, 所述骨干特征包括音频骨干特征、 视觉二 维骨干特 征和视觉三维骨干特 征; 将所述骨干特 征映射为所述各个视频片段对应的音频 特征和视觉特征。 3.根据权利要求1所述的基于音视频融合的地震幸存者识别方法, 其特征在于, 所述基 于自注意力机制和跨模态注意力机制, 融合所述各个视频片段对应的音频特征和视觉特征 的同模态特征和跨模态特征, 确定各个视频片段对应的时序音频特征和时序视觉特征, 包 括: 基于所述各个视频片段对应的音频特征和视觉特征, 确定每个所述音频特征对应的同 模态时序音频特征、 每个所述音频特征对应的跨模态时序视觉特征、 每个所述视觉特征对 应的同模态时序视 觉特征以及每 个所述视 觉特征对应的跨模态时序视 觉特征; 基于所述每个视频片段的音频特征、 所述同模态时序音频特征和所述跨模态时序视觉 特征, 确定所述每个视频片段的时序音频特征, 并基于所述每个视频片段的视觉特征、 所述 同模态时序视觉特征和所述跨模态时序音频特征, 确定所述每个视频片段的时序音频特 征。 4.根据权利要求3所述的基于音视频融合的地震幸存者识别方法, 其特征在于, 所述基 于所述各个视频片段对应的音频特征和视觉特征, 确定每个所述音频特征对应的同模态时 序音频特征、 每个所述音频特征对应的跨模态时序视觉特征、 每个所述视觉特征对应的同 模态时序视 觉特征以及每 个所述视 觉特征对应的跨模态时序视 觉特征, 包括: 确定每个视频片段的音频特征与 所述N个视频片段的音频特征之间的音频与音频相似 度, 并基于所述音频与音频相似度, 确定每 个所述音频 特征对应的同模态时序音频 特征; 确定每个视频片段的音频特征与所述N个视频片段的视觉特征之间的音频视觉相似 度, 并基于所述音频视 觉相似度, 确定每 个所述音频 特征对应的跨模态时序视 觉特征; 确定每个视频片段的视觉特征与 所述N个视频片段的视觉特征之间的视觉与视觉相似 度, 并基于所述视 觉与视觉相似度, 确定每 个所述视 觉特征对应的同模态时序视 觉特征; 确定每个视频片段的视觉特征与所述N个视频片段的音频特征之间的视觉音频相似 度, 并基于所述视 觉音频相似度, 确定每 个所述视 觉特征对应的跨模态时序音频 特征。 5.根据权利要求4所述的基于音视频融合的地震幸存者识别方法, 其特征在于, 所述确 定每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度, 包 括:权 利 要 求 书 1/3 页 2 CN 114926857 A 2基于所述N个视频片段的音频特征和音频与音频相似度计算公式, 确定每个所述音频 特征与所述 N个视频片段的音频 特征之间的音频与音频相似度; 所述音频与音频相似度计算公式如下: 其中, 表示所述目标视频的第k个片段的音频特征, k为小于N的正整数, 表示所 述目标视频的第 j个片段的音频特征, j为小于N的正整 数, 表示 和 的音频与音频 相似度, T表示转置操作, d表示特征的维度, 表示所述目标视频的第q个片段的音频特 征, q为小于N的正整数, exp表示以自然常数 e为底的指数函数; 所述基于所述音频与音频相似度, 确定每个所述音频特征对应的同模态时序音频特 征, 包括: 基于每个视频片段的音频特征与 所述N个视频片段的音频特征之间的音频与音频相似 度, 利用同模态时序音频特征计算公式, 确定每个所述音频特征对应的同模态时序音频特 征; 所述同模态时序音频 特征计算公式如下: 其中, 表示与 对应的同模态时序音频特征, 表示目标视频的第s个片段的音 频特征, s为小于N的正整数, 表示 和 的音频与音频相似度。 6.根据权利要求4所述的基于音视频融合的地震幸存者识别方法, 其特征在于, 所述确 定每个视频片段的音频 特征与所述 N个视频片段的视 觉特征之间的音频视 觉相似度, 包括: 基于所述N个视频片段的音频特征和音频视觉相似度计算公式, 确定每个所述音频特 征与所述 N个视频片段的视 觉特征之间的音频视 觉相似度; 所述音频视 觉相似度计算公式如下: 其中, 表示所述目标视 频的第k个片段的音频特征, k为小于N的正整数, 表示所述 目标视频的第j个片段的视觉特征, j为小于N的正整数, 表示 和 之间的音频视觉 相似度, T表示转置操作, d表示特征的维度, 表示所述目标视频的第q个片段的视觉特 征, q为小于N的正整数, exp表示以自然常数 e为底的指数函数; 所述基于所述音频视觉相似度, 确定每个所述音频特征对应的跨模态时序视觉特征, 包括:权 利 要 求 书 2/3 页 3 CN 114926857 A 3

PDF文档 专利 基于音视频融合的地震幸存者识别方法及装置

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于音视频融合的地震幸存者识别方法及装置 第 1 页 专利 基于音视频融合的地震幸存者识别方法及装置 第 2 页 专利 基于音视频融合的地震幸存者识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:59:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。