金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210084577.X (22)申请日 2022.01.25 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 潘春燕 洪培衔 吴岸聪 郑伟诗  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 李斌 (51)Int.Cl. G06V 20/52(2022.01) G06V 10/44(2022.01) G06V 10/75(2022.01) G06V 10/762(2022.01) G06V 10/774(2022.01)G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于无监督跨模态的行 人重识别方法 (57)摘要 本发明公开了一种基于无监督跨模态的行 人重识别方法, 包括以下步骤: S1、 使用具有跨模 态标签的源数据集预训练一个局部特征提取网 络; S2、 使用S1预训练好的局部特征网络初始化 单模态聚类跨模态匹配框架的三个网络; S3、 使 用负责单模态的网络提取模态特定的特征用于 单模态聚类; S4、 使用负责混合模态的网络输出 模态共享的特征计算聚类中心, 并进行不同模态 聚类的匹配和融合, 得到新的伪类标; S5、 利用得 到的伪类标, 使用三元组损失对这三个网络同时 进行有监督训练; S6、 重复步骤S3至S6多次, 直到 伪类标被更新15次。 本发明不仅考虑了域差异的 问题, 也考虑了模态差异的问题, 从而学习得到 跨模态跨 域的具有鲁棒 性的特征。 权利要求书3页 说明书9页 附图3页 CN 114495004 A 2022.05.13 CN 114495004 A 1.一种基于无监 督跨模态的行 人重识别方法, 其特 征在于, 包括以下步骤: S1、 使用具有跨模态标签的源数据集预训练一个局部特 征提取网络; S2、 构建单模态聚类跨模态匹配框架, 框架包括三个网络, 其中两个网络负责不同模态 图片, 学习模态特定的特征, 另一个网络负责混合模态的图片, 学习模态共享的特征, 使用 训练好的局部特 征提取网络及其 参数初始化单模态聚类跨模态匹配框架的三个网络; S3、 使用负责单模态的网络提取模态特定的特 征用于单模态聚类; S4、 使用负责混合模态 的网络输出模态共享的特征计算聚类中心, 并进行不同模态聚 类的匹配和融合, 得到新的伪类标; S5、 利用得到的伪类标, 使用三元组损失对三个网络同时进行有监督训练, 训练迭代多 代; S6、 返回并执行步骤S3, 利用当前最新的网络重新单模态聚类, 再通过步骤S4重新匹配 和融合得到新的伪类标, 再进行步骤S5和步骤S6, 重复步骤S3 至S6直至 达到停止条件; S7、 将最终得到的单模态聚类跨模态匹配框架用于实际的行 人中识别。 2.根据权利要求1所述的一种基于无监督跨模态的行人重识别方法, 其特征在于, 步骤 S1中, 局部特征提取网络采用卷积神经网络模型Resnet50, 输入图像经过局 部特征提取网 络的所有 卷积层后, 利用最后一层得到的特征图按垂 直方向进 行分块, 作为局部特征信息, 使用该局部特征信息进行分类及损失的计算, 指导网络学习到具有判别性的局部特征信 息。 3.根据权利要求1所述的一种基于无监督跨模态的行人重识别方法, 其特征在于, 单模 态聚类跨模态匹配框架的三个网络具体为: 仅输入可见光图片的可见光模态网络FR、 仅输 入近红外图片的近红外模态网络FI以及同时输入可 见光和近红外图片的混合模态网络FM。 4.根据权利要求1所述的一种基于无监督跨模态的行人重识别方法, 其特征在于, 步骤 S1的预训练具体为: 源数据集 的图像经过局部特征提取网络Fp, 在Fp得到的最后一层的特征图上按垂直方 向进行分块, 分成6块, 原始特征图的维度是h ×w×c, 其中h为高, w为宽, c为通道数, 每一块 的维度因此是h/6 ×w×c, 每一个 分块接着平均池化为一个维度为c的特征, 得到6个维度为 c的特征, 每一个分块的特征接着都送入 各自对应的分类器中, 即有6个不同的分类器, 最 终 得到6个分块的输出的类别概 率, 第i个分块的输出的第j类的概 率公式如下: 其中, Wi表示第i个分块对应的分类器, 即一个全连接层, 则代表分类器全连 接层的转置后的矩阵的第k行, n表示行 人类别的个数, 表示网络Fp的第i个分类 器; 该公式表示对每一个分类器输出的值做softmax得到分类概率, 基于该公式, 接着使用 交叉熵函数, 第i个分块的交叉熵函数写为:权 利 要 求 书 1/3 页 2 CN 114495004 A 2其中, 当且仅当输入样本属于第j类时yj为1, 否则yj为0; 最终的分块损失函数为所有 分 块交叉熵的和: 同时, 为了减少模态差异, 将不同模态的特征都嵌入到同一个空间中, 在特征分布上减 少不同模态分布的差异, 获得模态共享的特征, 从而提高跨模态检索的效果, 对相同行人不 同模态的图片的特 征直接进行拉近, 即优化目标为: 其中, 表示源数据集第i个 行人的可见光图片, 表示源数据集第i个 行人的近红外 图片, Fp代表分块预训练网络; 通过优化该目标, 使得相同的行人不同模态的特征得以逐渐 相同, 分布逐渐相似; 运用网络的中间层特 征进行模态分布的拉近, 最终的模态分布拉近的损失函数为: 其中, b代表每一个数据批次中的样本数目, Fp,i代表网络输出的第i层的特征, 总共有4 层; 为实现这样的模态拉近的方式, 使用特殊的数据批采样方式, 具体为: 对每一个数据批, 随机采样p个行人ID, 每一个ID随机采样I/2张可见光图片以及I/2张 近红外图片, 通过 该采样方式, 在一个数据批内直接拉近相同行 人不同模态图片的特 征; 优化Lmc, 拉近不同模态之间的分布; 在源数据集上训练预训练网络的预训练总体损失函数为: Lpre=Lce+λmcLmc 其中, λmc是模态拉近损失函数Lmc的权重; 利用该总体损失函数, 在有标签的源数据集上 进行有监 督训练。 5.根据权利要求1所述的一种基于无监督跨模态的行人重识别方法, 其特征在于, 步骤 S3具体为: 记目标数据集上的可见光图片为XR, 近红外图片为XI; 通过负责单模态图片的FR和FI得 到对应模态的模态特定的特征FR(XR), FI(XI), 接着进行单模态聚类, 得到单模态聚类结果 后, 计算出每一个聚类的中心, 聚类的中心即该聚类内特 征的均值向量。 6.根据权利要求1所述的一种基于无监督跨模态的行人重识别方法, 其特征在于, 步骤 S4具体为: 使用混合模态网络FM输出的模态共享的特 征来计算聚类中心, 以用于后续的匹配过程; 记某模态图片第j个聚类的图片集 合为 数目为 则某模态第j类的聚类中心为:权 利 要 求 书 2/3 页 3 CN 114495004 A 3

PDF文档 专利 一种基于无监督跨模态的行人重识别方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于无监督跨模态的行人重识别方法 第 1 页 专利 一种基于无监督跨模态的行人重识别方法 第 2 页 专利 一种基于无监督跨模态的行人重识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。