(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210517995.3
(22)申请日 2022.05.12
(71)申请人 东南大学
地址 211102 江苏省南京市江宁区东 南大
学路2号
(72)发明人 张毅锋 杜天文
(74)专利代理 机构 南京瑞弘专利商标事务所
(普通合伙) 32249
专利代理师 孙建朋
(51)Int.Cl.
G06V 40/10(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
G06V 10/32(2022.01)G06V 10/40(2022.01)
G06V 10/74(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于多损失注意力自适应网络的行人重识
别方法及系统
(57)摘要
本发明公开了一种基于多损失注意力自适
应网络的行人重识别方法及系统。 该方法以多损
失注意力自适应网络为框架, 首先采用行人重识
别数据集来训练网络的权重。 在完成训练后, 将
待检测的图像输入到该网络中, 与图像库中的行
人进行比对, 检索出正确的行人图像。 与传统的
方法相比, 本发明利用多损失注意力自适应网
络, 通过多层非线性变化网络, 对图像进行特征
提取, 同时通过优化损失函数, 更新网络参数。 本
发明可以完成行人图像的检索功能, 具有识别准
确率高的优点。
权利要求书4页 说明书8页 附图1页
CN 114782997 A
2022.07.22
CN 114782997 A
1.一种基于多损失注意力自适应网络的行人重识别方法, 其特征在于, 该方法包括以
下步骤:
步骤1、 数据预处 理步骤; 将训练数据集中的图像进行 预处理, 便于后面的特 征提取;
步骤2、 基于多损失注意力自适应网络构建损失函数, 包括如下子步骤:
步骤2.1、 设计多损失注意力自适应网络的网络结构;
步骤2.2、 经 数据预处 理后的训练样本 输入到多损失注意力自适应网络中;
步骤2.3、 设计损失函数进行反向传播, 不断优化网络的参数, 直至网络收敛, 网络训练
完成;
步骤3、 进行行人重识别: 基于已经训练完成的网络, 将待检测的行人图像输入进多损
失注意力自适应网络中, 提取图像特征, 与检索库中的行人图像进 行比对, 得到最 终的检索
结果。
2.根据权利要求1所述的基于多损失注意力自适应网络的行人重识别方法, 其特征在
于, 所述步骤1中数据预处 理步骤具体如下:
将数据集中的图像统一裁剪为256 ×128像素大小, 同时进行数据增广, 将图像随机翻
折、 旋转, 扩充数据集。
3.根据权利要求1所述的基于多损失注意力自适应网络的行人重识别方法, 其特征在
于, 所述步骤2.1设计多损失注意力自适应的网络结构, 具体为:
步骤201、 主干网络基于ResNet50网络, 包含卷积模块Conv 1、 卷积模块Conv2、 卷积模块
Conv3、 卷积模块Co nv4四个部分;
步骤202、 在ResNet50中添加注意力自适应模块, 用于学习图像特征中的通道相关性、
空间相关性, 鼓励模 型自适应地关注图像的特定区域, 抑制住无用信息, 筛选出有价值的信
息;
步骤203、 在主干网络后添加强力批归一 化模块, 进行 特征的进一 步提取。
4.根据权利要求3所述的基于多损失注意力自适应网络的行人重识别方法, 其特征在
于, 所述步骤2.2经 数据预处 理后的训练样本 输入到多损失注意力自适应网络中, 具体为:
首先, 在ResNet50的Conv2层后添加空间注意力模块SAM, SAM在对主干网络的特征图进
行建模后, 得到一张注 意力图, 简称AM; T指的是主干网络的输出特征图; 将AM与T进 行融合,
获取局部加权的特征; 空间注意力模块SAM中还包含了1 ×1大小的卷积核, 可以用于降低输
入图像的通道数量, 从而突出网络中的有效部分, 降低计算复杂度, 抑制背景的干扰;
其次, 在Conv3层后添加通道注意力模块CAM, CAM旨在压缩每个通道的权重为特征向
量, 将具有相同语义信息的通道进行 组合, 并与原始特征进 行融合, 鼓励网络结构学习关键
通道的特 征。
5.根据权利要求3所述的基于多损失注意力自适应网络的行人重识别方法, 其特征在
于, 所述步骤2.1添加强力批归一 化模块, 具体为:
首先, 图像在 经过ResNet50主干网络后, 还要经过全局平均池化层从而得到特征 f1, 所
述步骤2.3中设计的损失函数包括度量学习损失函数和身份损失函数, 其中度量学习损失
函数用于优化特 征f1; 随后, 经 过批归一 化层的归一 化操作后, 得到特 征f2;
其次, 特征f2在经 过全连接层时, 身份损失函数用于优化特 征f2。
6.根据权利要求5所述的方法, 其特征在于, 步骤2.3所设计的损失函数进行反向传播,权 利 要 求 书 1/4 页
2
CN 114782997 A
2不断优化网络的参数, 直至网络收敛, 具体为:
在优化特征f1时使用两种度量学习损失函数, 包括Triplet Loss和TriHard Loss;
Triplet Loss是将正样 本图像P、 负样 本图像N、 固定图像A组成三元组, 其中正样本图像P和
固定图像A是一对正样本对, 负样本图像N和固定图像A是一对负样本对; 定义两张图片x1和
x2,
分别表示图片x1和x2的特征向量, 其在特征空间上的距离为欧氏距离d(x1,x2),
可表示如下:
定义da,p是固定图像A和正样本图像P 之间的欧氏距离, da,n是固定图像A与负样本图像N
之间的欧氏距离, 参数α 是手动设置的阈值, 可控制实际正样本对和负样本对之间的距离,
(·)+是指max(0, ·)函数。 TripletL oss旨在让da,p尽可能小, da,n尽可能大;
Triplet Loss定义为:
Lt=(da,p‑da,n+α )+
TriHard Loss是另外一种度量学习损失函数, 在训练样本中, 选择特征向量距离最大
的正样本对和特征向量距离最小的负样本对组成三元组样 本对, 进行网络训练; 选取P 个行
人的K张图片组成一个训练批次, 针对锚点图a, 正样本集合为P(a), 负样本集合为N(a),
TriHard Loss表示如下:
将特征向量距离最大的正样本对权重wp和特征向量距离最小的负样本对权重wn都设置
为1, 除此之外的正样本和负样本权重都为0; 这样使得样本对都是最不易识别的样本; 同
时, 保证网络不仅能够在特征空间中扩大正负样本之间的距离, 同时也能够拉近正样本对
之间的距离;
在优化特征f2时使用表征学习损失函数, 在神经网络训练过程中, 将不同行人图片的
身份ID标签当作监督的分类标签; 设置行人重识别的数据集中有KID个行人的n张图片, 图片
x输入到训练网络f中, 经过神经网络的最末端全连接层, 输出图片x的ID预测向量
输入的图片x为第k个行 人ID的概 率是:
图片x的分类损失为:
其中, q(k)通过图片x的ID标签得到, 若输入图片x的身份标签为m, 则q(k)=1,m=k, 对
于任何的m≠k,q(k)=0 。
7.根据权利要求1所述的基于多损失注意力自适应网络的行人重识别方法, 其特征在
于, 步骤3所述进行 行人重识别具体如下:
步骤301、 在检索阶段, 待检测的行人图像输入进已经训练完成的网络中, 进行特征的权 利 要 求 书 2/4 页
3
CN 114782997 A
3
专利 基于多损失注意力自适应网络的行人重识别方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:59:18上传分享