专利一种视频检测方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210489255.3 (22)申请日 2022.05.06 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人束俊辉　刘振华　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师贾允 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/40(2022.01) G06K 9/62(2022.01) G06V 10/24(2022.01) G06V 10/20(2022.01)G06V 10/74(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G10L 15/02(2006.01) G10L 15/16(2006.01) (54)发明名称一种视频检测方法、装置、设备及存储介质 (57)摘要本申请公开了一种视频检测方法、装置、设备及存储介质。本申请涉及人工智能技术领域，该视频检测方法包括：获取两个目标视频对应的多模态信息，多模态信息包括两个目标视频各自对应的图像信息和音频信息；对图像信息分别进行多维度采样处理，得到两个目标视频各自对应的多维度采样图像；对多维度采样图像进行图像特征识别，得到两个目标视频各自对应的图像特征信息；对音频信息进行音频特征识别，得到两个目标视频各自对应的音频特征信息；基于图像特征信息和音频特征信息对两个目标视频进行重复检测，得到重复检测结果。利用本申请提供的技术方案，通过多维度采样图像和音频信息的双重视频特征进行视频重复检测，可以提升视频重复检测的准确性。权利要求书3页说明书17页附图7页 CN 115131697 A 2022.09.30 CN 115131697 A 1.一种视频检测方法，其特征在于，所述方法包括：获取两个目标视频对应的多模态信息，所述多模态信息包括所述两个目标视频各自对应的图像信息和音频信息；对所述图像信息分别进行多维度采样处理，得到所述两个目标视频各自对应的多维度采样图像；对所述多维度采样图像进行图像特征识别，得到所述两个目标视频各自对应的图像特征信息；对所述音频信息进行音频特征识别，得到所述两个目标视频各自对应的音频特征信息；基于所述图像特征信息和所述音频特征信息，对所述两个目标视频进行重复检测，得到所述两个目标视频的重复检测结果。 2.根据权利要求1所述的方法，其特征在于，所述基于所述图像特征信息和所述音频特征信息，对所述两个目标视频进行重复检测，得到所述两个目标视频的重复检测结果包括：将所述图像特征信息输入图像重复检测网络进行图像重复检测，得到图像重复检测结果；将所述音频特征信息输入音频重复检测网络进行音频重复检测，得到音频重复检测结果；对所述图像重复检测结果和所述音频重复检测结果进行复合校验处理，得到所述重复检测结果。 3.根据权利要求2所述的方法，其特征在于，所述图像重复检测结果包括所述多维度采样图像对应的多个采样维度的初始检测结果，所述对所述图像重复检测结果和所述音频重复检测结果进行复合校验处理，得到所述重复检测结果包括：基于所述多个采样维度的预设校验优先级信息，从所述多个采样维度的初始检测结果中确定目标检测结果，所述目标检测结果为当前未校验的初始检测结果中对应采样维度的预设校验优先级信息最高的初始检测结果；对所述目标检测结果进行校验处理，得到检测校验结果；在所述检测校验结果满足预设校验条件的情况下，将所述目标检测结果作为所述重复检测结果。 4.根据权利要求3所述的方法，其特征在于，在所述对所述目标检测结果进行校验处理，得到检测校验结果之后，所述方法还包括：在所述多个采样维度的检测校验结果均不满足所述预设校验条件的情况下，将所述音频重复检测结果作为所述重复检测结果。 5.根据权利要求2所述的方法，其特征在于，所述对所述图像重复检测结果和所述音频重复检测结果进行复合校验处理，得到所述重复检测结果包括：获取所述两个目标视频的内容类型信息；确定与所述内容类型信息对应的图像权重信息和音频权重信息；基于所述图像权重信息和所述音频权重信息，对所述图像重复检测结果和所述音频重复检测结果进行加权处理，得到所述重复检测结果。 6.根据权利要求1至5任一所述的方法，其特征在于，所述对所述图像信息分别进行多权　利　要　求　书 1/3 页 2 CN 115131697 A 2维度采样处理，得到所述两个目标视频各自对应的多维度采样图像包括：对所述图像信息进行目标检测，得到目标对象图像；对所述图像信息进行剪裁处理，得到剪裁图像；对所述图像信息进行图像转换处理，得到转换图像；基于所述图像信息、所述目标对象图像、所述剪裁图像和所述转换图像，生成所述多维度采样图像。 7.根据权利要求1至5任一所述的方法，其特征在于，所述获取两个目标视频对应的多模态信息包括：基于预设抽帧频率对所述两个目标视频进行图像抽帧处理，得到所述图像信息；每隔第一时长，对所述两个目标视频进行音频截取处理，得到所述两个目标视频各自对应的多个第二时长的音频片段，所述第一时长小于所述第二时长；将所述多个第二时长的音频片段作为所述音频信息。 8.根据权利要求1至5任一所述的方法，其特征在于，在所述获取两个目标视频对应的多模态信息之前，所述方法还包括：获取新增视频和多个历史视频；对所述新增视频和所述多个历史视频进行相似匹配，得到所述新增视频对应的至少一个匹配历史视频；将所述新增视频和任一匹配历史视频作为所述两个目标视频。 9.根据权利要求2所述的方法，其特征在于，所述方法还包括：获取两个样本视频各自对应的样本图像特征信息和样本音频特征信息以及所述两个样本视频的预设重复检测结果；将所述样本图像特征信息输入预设图像重复检测网络进行图像重复检测，得到样本图像检测结果；将所述样本音频特征信息输入预设音频重复检测网络进行音频重复检测，得到样本音频检测结果；对所述样本图像检测结果和所述样本音频检测结果进行复合校验处理，得到所述两个样本视频的样本重复检测结果；基于所述预设重复检测结果和所述样本重复检测结果，确定目标损失信息；基于所述目标损失信息，训练所述预设图像重复检测网络和所述预设音频重复检测网络，得到图像重复检测网络和音频重复检测网络。 10.一种视频检测装置，其特征在于，所述装置包括：多模态信息获取模块，用于获取两个目标视频对应的多模态信息，所述多模态信息包括所述两个目标视频各自对应的图像信息和音频信息；多维度采样处理模块，用于对所述图像信息分别进行多维度采样处理，得到所述两个目标视频各自对应的多维度采样图像；图像特征识别模块，用于对所述多维度采样图像进行图像特征识别，得到所述两个目标视频各自对应的图像特征信息；音频特征识别模块，用于对所述音频信息进行音频特征识别，得到所述两个目标视频各自对应的音频特征信息；权　利　要　求　书 2/3 页 3 CN 115131697 A 3

专利 一种视频检测方法、装置、设备及存储介质

专利一种视频检测方法、装置、设备及存储介质