专利基于音视频融合的地震幸存者识别方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210494013.3 (22)申请日 2022.04.29 (71)申请人中国科学院自动化研究所地址 100190 北京市海淀区中关村东路95 号 (72)发明人徐常胜　姚涵涛　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师周淑娟 (51)Int.Cl. G06V 40/10(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/74(2022.01)G06V 10/40(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G10L 25/03(2013.01) G10L 25/51(2013.01) (54)发明名称基于音视频融合的地震幸存者识别方法及装置 (57)摘要本申请提供一种基于音视频融合的地震幸存者识别方法及装置，方法包括：确定目标视频，所述目标视频包括N个视频片段， N为正整数；提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征；基于自注意力机制和跨模态注意力机制，融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征，确定各个视频片段对应的时序音频特征和时序视觉特征；基于所述时序音频特征和时序视觉特征，确定所述目标视频的地震幸存者识别结果，提升了幸存者识别的精度。权利要求书3页说明书15页附图3页 CN 114926857 A 2022.08.19 CN 114926857 A 1.一种基于音视频融合的地震幸存者识别方法，其特征在于，包括：确定目标视频，所述目标视频包括 N个视频片段， N 为正整数；提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征；基于自注意力机制和跨模态注意力机制，融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征，确定各个视频片段对应的时序音频特征和时序视觉特征；基于所述时序音频特征和时序视觉特征，确定所述目标视频的地震幸存者识别结果。 2.根据权利要求1所述的基于音视频融合的地震幸存者识别方法，其特征在于，所述提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征，包括：确定所述 N个视频片段中各个视频片段对应的音频信息和视觉信息；提取所述音频信息和视觉信息的骨干特征，所述骨干特征包括音频骨干特征、视觉二维骨干特征和视觉三维骨干特征；将所述骨干特征映射为所述各个视频片段对应的音频特征和视觉特征。 3.根据权利要求1所述的基于音视频融合的地震幸存者识别方法，其特征在于，所述基于自注意力机制和跨模态注意力机制，融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征，确定各个视频片段对应的时序音频特征和时序视觉特征，包括：基于所述各个视频片段对应的音频特征和视觉特征，确定每个所述音频特征对应的同模态时序音频特征、每个所述音频特征对应的跨模态时序视觉特征、每个所述视觉特征对应的同模态时序视觉特征以及每个所述视觉特征对应的跨模态时序视觉特征；基于所述每个视频片段的音频特征、所述同模态时序音频特征和所述跨模态时序视觉特征，确定所述每个视频片段的时序音频特征，并基于所述每个视频片段的视觉特征、所述同模态时序视觉特征和所述跨模态时序音频特征，确定所述每个视频片段的时序音频特征。 4.根据权利要求3所述的基于音视频融合的地震幸存者识别方法，其特征在于，所述基于所述各个视频片段对应的音频特征和视觉特征，确定每个所述音频特征对应的同模态时序音频特征、每个所述音频特征对应的跨模态时序视觉特征、每个所述视觉特征对应的同模态时序视觉特征以及每个所述视觉特征对应的跨模态时序视觉特征，包括：确定每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度，并基于所述音频与音频相似度，确定每个所述音频特征对应的同模态时序音频特征；确定每个视频片段的音频特征与所述N个视频片段的视觉特征之间的音频视觉相似度，并基于所述音频视觉相似度，确定每个所述音频特征对应的跨模态时序视觉特征；确定每个视频片段的视觉特征与所述N个视频片段的视觉特征之间的视觉与视觉相似度，并基于所述视觉与视觉相似度，确定每个所述视觉特征对应的同模态时序视觉特征；确定每个视频片段的视觉特征与所述N个视频片段的音频特征之间的视觉音频相似度，并基于所述视觉音频相似度，确定每个所述视觉特征对应的跨模态时序音频特征。 5.根据权利要求4所述的基于音视频融合的地震幸存者识别方法，其特征在于，所述确定每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度，包括：权　利　要　求　书 1/3 页 2 CN 114926857 A 2基于所述N个视频片段的音频特征和音频与音频相似度计算公式，确定每个所述音频特征与所述 N个视频片段的音频特征之间的音频与音频相似度；所述音频与音频相似度计算公式如下：其中, 表示所述目标视频的第k个片段的音频特征， k为小于N的正整数，表示所述目标视频的第 j个片段的音频特征， j为小于N的正整数, 表示和的音频与音频相似度， T表示转置操作， d表示特征的维度, 表示所述目标视频的第q个片段的音频特征， q为小于N的正整数， exp表示以自然常数 e为底的指数函数；所述基于所述音频与音频相似度，确定每个所述音频特征对应的同模态时序音频特征，包括：基于每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度，利用同模态时序音频特征计算公式，确定每个所述音频特征对应的同模态时序音频特征；所述同模态时序音频特征计算公式如下：其中，表示与对应的同模态时序音频特征，表示目标视频的第s个片段的音频特征， s为小于N的正整数，表示和的音频与音频相似度。 6.根据权利要求4所述的基于音视频融合的地震幸存者识别方法，其特征在于，所述确定每个视频片段的音频特征与所述 N个视频片段的视觉特征之间的音频视觉相似度，包括：基于所述N个视频片段的音频特征和音频视觉相似度计算公式，确定每个所述音频特征与所述 N个视频片段的视觉特征之间的音频视觉相似度；所述音频视觉相似度计算公式如下：其中, 表示所述目标视频的第k个片段的音频特征， k为小于N的正整数，表示所述目标视频的第j个片段的视觉特征， j为小于N的正整数, 表示和之间的音频视觉相似度， T表示转置操作， d表示特征的维度, 表示所述目标视频的第q个片段的视觉特征， q为小于N的正整数， exp表示以自然常数 e为底的指数函数；所述基于所述音频视觉相似度，确定每个所述音频特征对应的跨模态时序视觉特征，包括：权　利　要　求　书 2/3 页 3 CN 114926857 A 3

专利 基于音视频融合的地震幸存者识别方法及装置

专利基于音视频融合的地震幸存者识别方法及装置