专利一种基于低光照复杂道路场景下的语义分割方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111190065.3 (22)申请日 2021.10.12 (71)申请人江苏大学地址 212013 江苏省镇江市京口区学府路 301号 (72)发明人王海　陈妍妍　蔡英凤　陈龙　李祎承　刘擎超　孙晓强　 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/774(2022.01) G06V 20/56(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 30/27(2020.01) (54)发明名称一种基于低光照复杂道路场景下的语义分割方法及系统 (57)摘要本发明公开了一种基于低光照复杂道路场景下的语义分割方法及系统，本发明通过自动驾驶仿真平台和生成对抗网络分别进行合成数据采集和良好光照下的数据风格迁移工作，从而构建了不同的低光照数据集；本发明在SFNet网络的基础上,提出了一种新的语义分割算法来改善低光照场景下的分割性能，主要通过改进的 Resnet50+结构作为骨干网络进行特征提取，在每一个Resnet block引入通道‑空间注意力机制增强像素的表征能力并在上采样时，考虑到分辨率不同造成的差异引入特征对齐模块FAM，该模块可以学习高层低分辨率特征到浅层高分辨率的像素偏移从而实现像素的精准变化，从而最大可能避免细节丢失问题，最后通过引入多尺度注意力模块来进一步提高分割性能。本发明采用离线方法预训练语义分割网络从而提高系统的安全性。权利要求书4页说明书7页附图3页 CN 113902915 A 2022.01.07 CN 113902915 A 1.一种基于低光照复杂道路场景下的语义分割系统，其特征在于，包括低光照数据集构建模块，语义分割网络模块，离线端对端训练模块和车载摄像头实时分割模块；所述的低光照数据集构建模块，用于获取复杂的低光照道路场景图片，该模块构建的低光照数据集包括基于仿真平台合成虚拟数据和真实场景数据风格转化后的数据，其中，基于仿真平台合成虚拟数据是利用仿真平台CRALA所采集的低光照数据，所述真实场景数据风格转化后的数据是使用C ycleaGAN算法对现有的白天数据集CitySacpes进行低光照风格转换得到；所述的语义分割网络模块用于获取最后的标签图，即按照像素所属类别赋予其相应的类别标签，得到像素级别的分割结果；该模块采用改进的Resnet50+作为骨干特征提取网络，并在后面上采样时加入特征对齐模块(FAM)，学习每个像素点的运动方向，在保留细节的同时逐层恢复图像的高分辨率避免像素的细节丢失问题，最后通过多尺度注意力模块进一步改善语义分割结果；所述的离线端对端训练模块用于根据像素级标注图片，对搭建的语义分割网络进行训练，使得损失函数最小，得到最佳的分割权重；所述的车载摄像头实时分割模块，通过车载摄像头获取实时的道路场景图片，并将其送入已经训练好的语义分割神经网络中，获取实时的低光照道路场景分割结果。 2.根据权利要求1所述的一种基于低光照复杂道路场景下的语义分割系统，其特征在于，所述语义分割网络模块中：编码器部分包括改进的骨干网络(Resnet50+)部分和金字塔池化部分(PPM)，在逐层降低图片分辨率的同时获得更高层的特征图，并通过PPM扩大感受野得到全局的上下文信息；解码器部分包括4个带有特征对齐模块(FAM)的解码器(Dec)模块，根据给定的高维特征图和低维特征图，网络通过特征对齐模块学习每个像素点的运动方向，在尽可能保留细节的同时逐层恢复图像的高分辨率；原始图片经过该语义分割网络模块的编码器和解码器之后，通过由多个卷积层组成的且最后一层卷积通道数为类别数的分割头部分得到初始的分割结果。 3.根据权利要求2所述的一种基于低光照复杂道路场景下的语义分割系统，其特征在于，所述多尺度语义分割网络的注意力模块在训练时引入另外一个尺度图片作为网络模块的原始输入部分，并通过注意力机制允许网络学习相邻尺度间的相对注意力权重，然后将多个尺度的分割结果进行最佳融合；其中，针对该模块采取的分层操作，训练时只需要单独训练一个额外尺寸，额外尺寸选取为r＝0.5，训练过程表示为： L”(r＝1)＝Up(L(r＝0.5) )×A(r＝0.5)+(1 ‑A(r＝0.5) )×L(r＝1) (1) 由于训练学习的是相邻尺度间的相对权重，模型的推理过程表示为：权　利　要　求　书 1/4 页 2 CN 113902915 A 2其中r是缩放因子， r＝0.5表示缩小2倍， r＝2表示放大两倍； Up(·)表示上采样， Do(·) 表示下采样； Attn( α )， Attn(β )为学习到的注意力图； A( ·)表示某尺度下的注意力图，为 Attn(·)的某一维度； Norm(Z)表示Z对于Attn( β )的相对权重； L ”(·)和L”'(·)分别表示两个尺度和三个尺度下位于Softmax函数前的logit概率值； X( ·)表示某尺度下语义头之前的特征图； F3×3(·)、 F1×1(·)分别表示3 ×3和1×1卷积。 4.根据权利要求2所述的一种基于低光照复杂道路场景下的语义分割系统，其特征在于，所述编码器结构组成如下：浅层特征提取部分(Stem)使图片分辨率降到原图的1/4，再经过4个阶段使得在提取高层语义特征的同时分辨率降低到原图1/32，最后为了获得更抽象的语义特征，使用P PM将上下文信息进行融合；编码器的网络结构选取Resnet50作为骨干网络，并仅使用Resnet50前面的卷积层，卷积层由一个Stem和4个阶段组成，每个阶段分别包含3,4,6,3个block，每一个b lock均采取残差结构，使用3个尺寸为3 ×3的小卷积核取代1个7 ×7的大卷积核；在阶段中使用双重注意力模块来改进block进而优化骨干网络，改进后的block称之为Residual block+，改进后的总骨干网络称之为Resnet5 0+。 5.根据权利要求4所述的一种基于低光照复杂道路场景下的语义分割系统，其特征在于，所述Residual block+主要是在原始残差块的第三个权重层后引入通道注意力和空间注意力模块；其中权重层包括卷积层和批量归一化层；为了增加网络的非线性能力，该残差块采取瓶颈模块，即在第一个权重层中使用1 ×1卷积核对通道进行降维，然后通过3 ×3的卷积核提取特征，最后在第三个权重层中进行相应的升维。通道注意力和空间注意力模块具体设计如下：中间特征作为输入,经过纯通道注意力模块学习通道注意力图并与原特征图相乘得到特征通道注意力图的表示如下： AC＝σ(F(favg(X)+F(fmax(X)) (6) 经过通道注意力机制优化的特征Z再作为输入，送入到空间注意力机制中学习空间注意力图并与优化后的特征Z相乘得到最后的输出空间注意力图表示如下：其中favg(·)表示对输入X在空间上进行平均池化，池化后的 fmax(·)表示对输入X在空间上进行最大池化，池化后的 F(·)表示池化后送入的网络，由两个卷积核大小为1 ×1的二维卷积组成； f ”avg(·)表示对输入Z在通道上进行平均池权　利　要　求　书 2/4 页 3 CN 113902915 A 3

专利 一种基于低光照复杂道路场景下的语义分割方法及系统

专利一种基于低光照复杂道路场景下的语义分割方法及系统