专利用于目标检测任务的预训练模型生成方法、装置及设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111320361.0 (22)申请日 2021.11.09 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人张为明　张伟　谭啸　孙昊　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 代理人单冠飞 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G06V 10/774(2022.01) (54)发明名称用于目标检测任务的预训练模型生成方法、装置及设备 (57)摘要本申请公开了一种用于目标检测任务的预训练模型生成方法、装置及设备，涉及人工智能领域，具体涉及深度学习与计算机视觉技术。具体实现方案为：获取样本图像，并根据样本图像，生成第一输入图像、第二输入图像、第三输入图像和第四输入图像；根据多个输入图像和预设的第一模型和第二模型，生成第一输入图像、第二输入图像、第三输入图像和第四输入图像各自的目标特征向量；根据第一输入图像、第二输入图像、第三输入图像和第四输入图像各自的目标特征向量计算特征表示对比损失和定位损失；根据特征表示对比损失和定位损失，训练第一模型和第二模型，并根据训练好的第一模型的骨干网络参数生成预训练模型。权利要求书3页说明书11页附图5页 CN 114202074 A 2022.03.18 CN 114202074 A 1.一种用于目标检测任务的预训练模型生成方法，包括：获取样本图像，并根据所述样本图像，生成第一输入图像、第二输入图像、第三输入图像和第四输入图像；所述样本图像中包含多个目标；根据所述第一输入图像和预设的第一模型，生成所述第一输入图像的目标特征向量；根据所述第二输入图像、所述第三输入图像、所述第四输入图像和预设的第二模型，生成所述第二输入图像、所述第三输入图像和所述第四输入图像各自的目标特征向量；所述第一模型的网络结构和模型参数初始值与所述第二模型的相同；根据所述第一输入图像、所述第二输入图像和所述第三输入图像各自的目标特征向量计算特征表示对比损失，并根据所述第一输入图像和所述第四输入图像各自的目标特征向量计算定位损失；根据所述特征表示对比损失和所述定位损失，训练所述第一模型和所述第二模型，并根据训练好的第一模型的骨干网络参数生成所述预训练模型。 2.根据权利要求1所述的方法，其中，所述根据所述样本图像，生成第一输入图像、第二输入图像、第三输入图像和第四输入图像，包括：对所述样本图像进行选择性搜索，以生成第一输入图像；对所述第一输入图像进行剪切和伸缩处理，以生成所述第二输入图像；对所述第二输入图像进行下采样处理，以生成所述第三输入图像；对所述样本图像进行剪切和伸缩处理，并对经过剪切和伸缩处理后得到的图像进行选择性搜索，以生成所述第四输入图像。 3.根据权利要求1所述的方法，其中，所述根据所述第一输入图像、所述第二输入图像和所述第三输入图像各自的目标特征向量计算特征表示对比损失，包括：根据所述第一输入图像和所述第二输入图像各自的目标特征向量对同一目标特征进行对比学习，计算第一对比损失；根据所述第一输入图像和所述第三输入图像各自的目标特征向量对同一目标特征进行对比学习，计算第二对比损失；根据所述第一对比损失和所述第二对比损失，计算所述特征表示对比损失。 4.根据权利要求1所述的方法，其中，所述根据所述第一输入图像和所述第四输入图像各自的目标特征向量计算定位损失，包括：根据所述第一输入图像的目标特征向量，确定所述第一输入图像中每个目标候选框的目标中心点；根据所述第四输入图像的目标特征向量，找出与各自所述目标候选框对应的第一候选框集合和第二候选框集合；所述第一候选框集合中包含中心点落在以对应目标候选框的目标中心点为圆心，预设长度为半径的范围内的候选框；所述第二候选框集合中包含中心点落在所述范围之外的候选框；根据所述每个目标候选框的目标中心点、所述第一候选框集合和所述第二候选框集合，计算所述定位损失。 5.根据权利要求1所述的方法，其中，所述根据所述特征表示对比损失和所述定位损失，训练所述第一模型和所述第二模型，包括：根据所述特征表示对比损失和所述定位损失，计算模型损失值；权　利　要　求　书 1/3 页 2 CN 114202074 A 2根据所述模型损失值生成所述第一模型的回传梯度；根据所述回传梯度以指数移动平均值E MA的方式更新所述第二模型的参数。 6.根据权利要求1所述的方法，其中，所述根据所述第一输入图像和预设的第一模型，生成所述第一输入图像的目标特征向量，包括：将所述第一输入图像输入至预设的第一模型，获得所述第一输入图像的多尺度特征图，并根据所述多尺度特征图生成所述第一输入图像的目标特征向量。 7.根据权利要求1所述的方法，其中，所述根据所述第二输入图像、所述第三输入图像、所述第四输入图像和预设的第二模型，生成所述第二输入图像、所述第三输入图像和所述第四输入图像各自的目标特征向量，包括：将所述第二输入图像、所述第三输入图像和所述第四输入图像分别输入至预设的第二模型，获得所述第二输入图像、所述第三输入图像和所述第四输入图像各自的多尺度特征图；根据所述第二输入图像、所述第三输入图像和所述第四输入图像各自的多尺度特征图，生成所述第二输入图像、所述第三输入图像和所述第四输入图像各自的目标特征向量。 8.一种用于目标检测任务的预训练模型生成装置，包括：获取模块，用于获取样本图像，并根据所述样本图像，生成第一输入图像、第二输入图像、第三输入图像和第四输入图像；所述样本图像中包含多个目标；第一生成模块，用于根据所述第一输入图像和预设的第一模型，生成所述第一输入图像的目标特征向量；第二生成模块，用于根据所述第二输入图像、所述第三输入图像、所述第四输入图像和预设的第二模型，生成所述第二输入图像、所述第三输入图像和所述第四输入图像各自的目标特征向量；所述第一模型的网络结构和模型参数初始值与所述第二模型的相同；损失计算模块，用于根据所述第一输入图像、所述第二输入图像和所述第三输入图像各自的目标特征向量计算特征表示对比损失，并根据所述第一输入图像和所述第四输入图像各自的目标特征向量计算定位损失；训练模块，用于根据所述特征表示对比损失和所述定位损失，训练所述第一模型和所述第二模型，并根据训练好的第一模型的骨干网络参数生成所述预训练模型。 9.根据权利要求8所述的装置，其中，所述获取模块具体用于：对所述样本图像进行选择性搜索，以生成第一输入图像；对所述第一输入图像进行剪切和伸缩处理，以生成所述第二输入图像；对所述第二输入图像进行下采样处理，以生成所述第三输入图像；对所述样本图像进行剪切和伸缩处理，并对经过剪切和伸缩处理后得到的图像进行选择性搜索，以生成所述第四输入图像。 10.根据权利要求8所述的装置，其中，所述损失计算模块具体用于：根据所述第一输入图像和所述第二输入图像各自的目标特征向量对同一目标特征进行对比学习，计算第一对比损失；根据所述第一输入图像和所述第三输入图像各自的目标特征向量对同一目标特征进行对比学习，计算第二对比损失；根据所述第一对比损失和所述第二对比损失，计算所述特征表示对比损失。权　利　要　求　书 2/3 页 3 CN 114202074 A 3

专利 用于目标检测任务的预训练模型生成方法、装置及设备

专利用于目标检测任务的预训练模型生成方法、装置及设备