专利一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210529260.2 (22)申请日 2022.05.16 (65)同一申请的已公布的文献号申请公布号 CN 114625924 A (43)申请公布日 2022.06.14 (73)专利权人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人纪守领　马哲　董建锋　刘丰豪　张旭鸿　蒲誉文　陈建海　杨星　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师郑海峰 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/71(2019.01) G06V 20/40(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (56)对比文件 CN 114328834 A,202 2.04.12 CN 114462546 A,202 2.05.10 CN 113821689 A,2021.12.21 US 201826826 5 A1,2018.09.20 张锡敏等. “基于知识蒸馏的差异性深度集成学习”. 《浙江科技学院学报》 .2021, Runyu Yang et al. .“Knowledge Distillation From End-To- End Image Compression To Vvc I ntra Codi ng For Perceptual Qual ity Enhancement ”. 《IEEE Internati onal Conference o n Image Processing》 .2021, 审查员郭明亮 (54)发明名称一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统 (57)摘要本发明公开了一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统，属于侵权视频检索技术领域。该方法包括：首先通过预训练的视觉模型获取视频的初始特征，然后通过在目标数据集上对视频的初始特征进行编码训练，得到具有更强任务适应性的视频特征表示。接着设计知识融合方法将多种基础检索模型的知识进行融合，融合后的知识通过知识蒸馏的方式迁移到蒸馏检索模型中。最终得到的融合了多位专家知识的蒸馏检索模型具有更高的计算效率和更加优越的性能。本发明利用深度学习技术和知识蒸馏技术，能够实现高效鲁棒的侵权视频检索，在很大程度上提高了侵权视频检索的性能和效率。权利要求书3页说明书7页附图3页 CN 114625924 B 2022.08.26 CN 114625924 B 1.一种基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，包括以下步骤：步骤1：构建多个预训练的视觉专家模型，利用预训练的多视觉专家模型分别对视频进行特征抽取，获得视频的帧级初始特征；步骤2：利用多个基础检索模型对视频的帧级初始特征进行编码，获得帧级编码特征表示，并通过时序平均池化计算视频级特征；步骤3：构造训练数据集，提取训练数据的视频级特征，采用对比学习方法对所述的多个基础检索模型进行训练，根据每一个训练好的基础检索模型得到一个相似度度量函数，取多个相似度度量函数的均值作为融合的专家知识；步骤4：构建蒸馏检索模型，并通过训练将融合的专家知识蒸馏到蒸馏检索模型中；所述的步骤4具体为：步骤4.1：构建与基础检索模型结构相同的蒸馏检索模型；步骤4.2：采用步骤3所述的训练数据集对蒸馏检索模型进行知识蒸馏训练和对比学习训练，所述的知识蒸馏训练的损失函数为：其中， Ldistill表示知识蒸馏损失， Ei[.]表示遍历所有的负样本对求期望，表示L2范数的平方， s*(.)为蒸馏检索模型的相似度量函数，为所有基础检索模型的相似度度量函数的均值， Xq为目标视频， Xi为对目标视频Xq不构成侵权关系的视频， N为训练数据集中对目标视频 Xq不构成侵权关系的视频的数量， (Xq,Xi)作为负样本对；所述蒸馏检索模型的对比学习训练过程与基础检索模型的对比学习训练过程相同；将知识蒸馏训练与对比学习训练的损失函数的加权值作为总损失，完成训练过程；步骤5：基于训练好的蒸馏检索模型，实现侵权视频检索。 2.根据权利要求1所述的基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，所述的视频的帧级初始特征表示为其中K为预训练的视觉专家模型的数量， n为从视频中抽取的帧图像的数量，为第k种预训练的视觉专家模型抽取的第t 帧图像的特征向量。 3.根据权利要求2所述的基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，所述的视频级特征表示为：其中， φk(.)为第k个基础检索模型，为帧级编码特征表示，为第k个基础检索模型对第t帧图像的帧级编码特征，为第k个基础检索模型对应的视频级特征。 4.根据权利要求1所述的基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，步骤3所述的训练数据集表示为{Xq,X+,X1,X2,…,Xi,…,XN}，其中， Xq为目标视频， X+为对目标视频Xq构成侵权关系的视频， (Xq,X+)作为正样本对； Xi， i＝1,2, …,N为对目标视频Xq不构权　利　要　求　书 1/3 页 2 CN 114625924 B 2成侵权关系的视频， N为训练数据集中对目标视频Xq不构成侵权关系的视频的数量， (Xq,Xi) 作为负样本对。 5.根据权利要求4所述的基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，采用对比学习方法对所述的多个基础检索模型进行训练时，计算正样本对和负样本对的视频级特征，根据两个视频的相似度计算对比损失函数：其中， Lcst表示对比学习损失， sk(.)为第k个基础检索模型的相似度度量函数， sk(Xq,X+) 为第k个基础检索模型输出的正样本对的视频级特征向量的相似度， sk(Xq,Xi)为第k个基础检索模型输出的负样本对的视频级特征向量的相似度， E[.]为求期望运算。 6.根据权利要求1所述的基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，所述的步骤5具体为：步骤5.1：收集原始视频数据库，利用训练好的蒸馏检索模型提取每一个视频的视频级特征，构建视频指纹库；步骤5.2：部署在线的蒸馏检索模型，提取待查询视频的视频级特征，利用向量搜索引擎在视频指纹库中搜索最近邻，获取相似度高于阈值的视频作为侵权检测结果。 7.一种基于多视觉专家知识蒸馏的侵权视频检索系统，用于实现权利要求1所述的侵权视频检索方法，其特征在于，所述的系统包括：视觉专家模型模块，包含多个视觉专家模型，其用于对视频进行特征抽取，获得视频的帧级初始特征；基础检索模型模块，包含多个基础检索模型，其用于对视频的帧级初始特征进行编码，获得帧级编码特征表示，并通过时序平均池化计算视频级特征；训练数据库模块，其用于构造训练数据集；第一训练模块，其用于获取训练数据集的视频级特征，并采用对比学习方法对基础检索模型进行训练，根据每一个训练好的基础检索模型得到一个相似度度量函数，取多个相似度度量函数的均值作为融合的专家知识；蒸馏检索模型模块，包含一个蒸馏检索模型，与基础检索模型结构相同；第二训练模块，其用于获取训练数据集的视频级特征，以及获取融合的专家知识，并通过训练将融合的专家知识蒸馏到蒸馏检索模型中；所述的第二训练模块包括：知识蒸馏训练模块，其用于将融合的专家知识蒸馏到蒸馏检索模型中，得到知识蒸馏训练损失；对比学习训练模块，其用于获取训练数据集的视频级特征，并采用对比学习方法对蒸馏检索模型进行训练，得到对比学习损失；总损失计算模块，其用于对知识蒸馏训练损失和对比学习损失进行加权求和，将总损失反馈给知识蒸馏训练模块和对比学习训练模块，直至训练结束；侵权视频检索模块，其用于获取训练好的蒸馏检索模型并实现侵权视频检索。 8.根据权利要求7所述的基于多视觉专家知识蒸馏的侵权视频检索系统，其特征在于，所述的侵权视频检索模块包括：权　利　要　求　书 2/3 页 3 CN 114625924 B 3

专利 一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统

专利一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统