专利一种基于transformer的自动驾驶目标检测方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210073220.1 (22)申请日 2022.01.21 (71)申请人浙江零跑科技股份有限公司地址 310051 浙江省杭州市滨江区物联网街451号1楼 (72)发明人徐昀　王芬芬　谢钱昆　 (74)专利代理机构杭州杭诚专利事务所有限公司 33109 专利代理师刘正君 (51)Int.Cl. G06V 20/58(2022.01) G06V 20/56(2022.01) G06K 9/62(2022.01) G06V 10/46(2022.01) G06V 10/44(2022.01)G06V 10/764(2022.01) (54)发明名称一种基于tran sformer的自动驾驶目标检测方法及系统 (57)摘要本发明公开了一种基于tran sformer的自动驾驶目标检测方法，克服了现有技术中基于 transformer的目标检测方法计算量大、收敛慢以及对车辆伪3d检测包含冗杂信息的问题，方法包括下列步骤： S1：利用transformer预测出不同目标车辆的2d检测框以及相关车辆信息； S2：根据预测结果得到车辆的伪3d框。还提供了一种基于transformer的自动驾驶目标检测系统。在计算不同粒度下的自注意力时添加稀疏注意力机制，减少了计算量，同时在2d检测的基础上，再预测3个关键点，减少网络的重复预测。权利要求书2页说明书6页附图3页 CN 114627446 A 2022.06.14 CN 114627446 A 1.一种基于t ransformer的自动驾驶目标检测方法，其特征在于，它包括下列步骤： S1：利用t ransformer预测出不同目标车辆的2d检测框以及相关车辆信息； S2：根据预测结果得到车辆的伪3d框。 2.根据权利要求1所述的一种基于transformer的自动驾驶目标检测方法，其特征在于，所述的步骤S1 中，预测的信息具体包括：车辆的2d检测框的四个顶点(e， g， n， m)，车辆车轮胎的关键点a(xa， ya)， b(xb， yb)以及车身分界点c(xc， yc)。 3.根据权利要求1所述的一种基于transformer的自动驾驶目标检测方法，其特征在于，所述的步骤S1的具体步骤为： S1.1：输入车身图像，利用若干加入稀疏注意力机制的Stage模块从输入的图像中提取特征，得到初始特征图； S1.2：将不同Stage模块的输出特征融合得到不同尺度大小的特征信息，对不同尺度大小的输出以不同权重进行加权求和，输出相同大小的特征图； S1.3：通过1 ×1的卷积改变通道数进行对特征图不同任务的分类和识别，得到不同目标车辆的2d检测框以及相关车辆信息。 4.根据权利要求3所述的一种基于transformer的自动驾驶目标检测方法，其特征在于，所述的步骤S1.1中：将输入图像划分为大小为n ×n的子图像块，依次经历4个加入稀疏注意力机制的stage 模块，每经历一个st age模块都输出一个初始特征图；经过每个stage后的特征图尺寸减半而维度翻倍。 5.根据权利要求3或4所述的一种基于transformer的自动驾驶目标检测方法，其特征在于，所述的步骤S1.1中，加入的稀疏注意力机制： A1：使用不同大小的细粒度将特征图池化成对应矩阵； A2：对矩阵进行相关性约束：每个元素只跟他相对半径为K以及 K+2i(K为超参数， i＝0, 1,2…)的元素计算注意力，即除了相对半径不超过K的以及相对半径为K+2i以外的位置，注意力值设为0 。 6.根据权利要求3或4所述的一种基于transformer的自动驾驶目标检测方法，其特征在于，所述的步骤S1.2中，输出相同大小的特征图： S1.2.1：将初始特征图与下一个Stage模块输出的相同大小的中间特征图相加，得到输出特征图，再使用上采样块将输出特征图扩大至与第一个Stage模块中输出的初始特征图一样大，得到该Stage模块的最终输出特征图，具体地，要得到相同大小的中间特征图：输入图像每多经历一个Sta ge模块，就使用上采样块将初始特征图扩大两倍； S1.2.2：为每一个Stage模块的最终输出特征图添加可学习的影响因子，与对应stage 模块的输出相乘并求和进行多尺度特征融合，得到相同大小的特征图。 7.根据权利要求2所述的一种基于transformer的自动驾驶目标检测方法，其特征在于，所述的步骤S2中，车轮胎关键点和车身分界点都设有类别标签，类别标签将车辆行驶状态分为头左、头右、尾左、尾右、仅头、仅尾、仅左、仅右8类。 8.根据权利要求2所述的一种基于transformer的自动驾驶目标检测方法，其特征在于，所述的步骤S2进一步表示为： S2.1：根据检测到的顶点信息，设置顶点坐标，根据顶点坐标在图像中建立图像坐标权　利　要　求　书 1/2 页 2 CN 114627446 A 2系，其中原点为车辆图像左上角顶点，沿原点向右为x轴方向，沿原点向下为y轴方向； S2.2：根据预测的a、 b 两点坐标计算直线方程L(a,b)＝F(xa,ya,xb,yb)，分别计算直线L (a,b)与直线y＝yc的交点i，直线L(a,b)与直线x＝xe时的交点j； S 2.3： c点在x轴上的投影与 2d框相交于点f，点g沿y轴向下与点i沿x轴向右交于点h(xg,yi)，得到伪3d框各顶点(e， f， g， h， i， j)； S2.4：所有车辆均按照步骤S2.1 ‑S2.3的步骤计算。 9.根据权利要求8所述的一种基于transformer的自动驾驶目标检测方法，其特征在于，所述的步骤S2中，看不到车轮胎点的情况则伪3d框与2d框重合。 10.一种基于transformer的自动驾驶目标检测系统，应用于用权利要求1 ‑9中任意一项权利要求所述的一种基于t ransformer的自动驾驶目标检测方法，其特征在于，包括：特征提取模块：提取图像全局以及局部信息特征；特征提取模块包括若干sta ge模块，所述sta ge模块包括：子图像块嵌入层：为每个子图像块嵌入一个可学习的位置信息参数，并通过一个卷积核和步长都为 n的卷积将其投影到维度通道空间；稀疏注意力机制模块：在计算局部的细粒度自注意力和全局的粗粒度注意力时，减小计算量；特征融合模块：对不同尺度的特征进行融合；检测模块：对输入的特征进行目标分类与定位。权　利　要　求　书 2/2 页 3 CN 114627446 A 3

专利 一种基于transformer的自动驾驶目标检测方法及系统

专利一种基于transformer的自动驾驶目标检测方法及系统