专利地面无人车辆底盘运动与目标打击协同控制方法和系统

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111279251.4 (22)申请日 2021.11.01 (65)同一申请的已公布的文献号申请公布号 CN 113705115 A (43)申请公布日 2021.11.26 (73)专利权人北京理工大学地址 100081 北京市海淀区中关村南大街5 号专利权人北理慧动（北京）科技有限公司 (72)发明人龚建伟　李子睿　魏连震　左寅初　吕超　臧政　 (74)专利代理机构北京高沃律师事务所 1 1569 代理人董领逊 (51)Int.Cl. G06F 30/27(2020.01)G06F 30/15(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (56)对比文件 CN 112364774 A,2021.02.12 CN 111328018 A,2020.0 6.23 CN 110209126 A,2019.09.0 6 WO 2016/129671 A1,2016.08.18 审查员李易玮 (54)发明名称地面无人车辆底盘运动与目标打击协同控制方法和系统 (57)摘要本发明涉及一种地面无人车辆底盘运动与目标打击协同控制方法和系统。本发明通过搭建好的仿真场景对搭建好的强化学习参数模型进行训练和测试，得到训练好的强化学习参数模型，可以将特种车辆类型和强化学习参数模型进行有机结合，并且，在实际环境中，输入车辆传感器实时采集到的各种信息作为深度强化学习的输入，最终实现对地面无人车辆底盘运动与目标打击协同控制，以能够实现自主机动模块与自主任务模块的协同，在缩短任务的完成时间，提升任务执行效果。进一步，基于仿真数据的强化学习方法，能够使数据获取的成本低，而且与基于规则的数学模型方法相比，只需要对输入数据、输出动作、奖赏函数做适当修改即可应用于新的场景，普适性更好。权利要求书3页说明书9页附图2页 CN 113705115 B 2022.02.08 CN 113705115 B 1.一种地面无人车辆底盘运动与目标打击协同控制方法，其特征在于，包括：搭建实车环境对应的仿真场景；搭建强化学习参数模型；所述强化学习参数模型包括：全连接层、状态值网络、动作值网络和dropout网络；采用所述仿真场景对搭建好的所述强化学习参数模型进行训练和测试，得到训练好的强化学习参数模型；将地面无人车辆的传感器信息作为输入，利用所述训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制；所述搭建强化学习参数模型，具体包括：设置全连接层、 “预测A网络 ”、“目标A网络 ”、“预测C网络 ”和“目标C网络 ”；所述“预测A 网络”和所述“目标A网络 ”的结构一致；所述 “预测A网络 ”采用的更新方式为实时更新；所述 “目标A网络 ”采用的更新方式为软更新；所述 “预测C网络 ”和所述“目标C网络 ”的结构一致；所述“预测C网络 ”采用的更新方式为实时更新；所述 “目标C网络 ”采用的更新方式为软更新；所述“预测A网络 ”用于根据输入的当前状态选择输出动作；所述 “目标A网络 ”用于确定下一状态选择对应的最优动作；所述 “预测C网络 ”用于预测动作的Q值，所述 “目标C网络 ”用于确定动作的真实Q 值。 2.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法，其特征在于，所述采用所述仿真场景对搭建好的所述强化学习参数模型进行训练和测试，得到训练好的强化学习参数模型，具体包括：采用所述仿真场景对搭建好的所述强化学习参数模型进行一定步数的训练以获得多组数据，并将获取的多组数据存储在经验池中；从所述经验池中抽出若干条数据并不断更新所述强化学习参数模型的网络参数值。 3.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法，其特征在于，所述设置全连接层、 “预测A网络 ”、“目标A网络 ”、“预测C网络 ”和“目标C网络 ”，具体包括：设置损失函数；所述损失函数的通用公式如下：式中， N为一次性训练的数据个数， L为损失函数， xi和 θ均为输入量， f为根据输入参数计算得到的输出预测值， yi为输入条件下的实际输出值；所述“预测A网络 ”根据输入s的变化计算更新动作a；所述 “预测A网络 ”的更新公式为：式中， τ 是常值参数，是“目标A网络 ”参数，是“预测A网络 ”的参数；所述“预测A网络 ”和所述“目标A网络 ”更新依据的梯度公式为：权　利　要　求　书 1/3 页 2 CN 113705115 B 2式中，为在si状态下、采取动作a的条件下， Q值对动作a的梯度；为si状态下对神经网络的梯度；所述“预测C网络 ”根据输入的状态s和动作a计算更新预测Q值；所述 “预测C网络 ”的更新公式为：式中， τ 是常值参数，是“目标C网络 ”的参数，是“预测C网络 ”的参数；所述“预测C网络 ”和所述“目标C网络 ”更新依据的损失函数公式为：式中， yi代表的是真实Q值， Q代表的是预测Q值， ri代奖励值，代表一次性训练的数据个数， si代表状态， ai代表动作；设置奖赏函数；所述奖赏函数为在状态si条件下，无人车辆做出动作ai后达到状态si+1；所述奖赏函数为：式中， zj代表车辆距离终点的相对距离关系， zx1代表对第一个敌方目标的打击效果， zx2 代表对第二个敌方目标的打击效果， zp代表车辆是否与障碍物进行碰撞干涉；利用优化器进行梯度下降；选用Adam Optimizer对所述优化器的参数进行更新，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，计算公式为：式中， α是学习率， gt是t次迭代代价函数对网络参数的梯度， θt是当前时刻的参数值，是上一时刻的参数值， mt是一阶动量项， vt是二阶动量项，均是动量修正项，均是常值参数。 4.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法，其特征在于，地面无人车辆底盘为履带式底盘、轮式底盘或轮腿式底盘。 5.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法，其特征在于，将地面无人车辆的传感器信息作为输入，利用所述训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制，具体包括：将地面无人车辆的传感器信息作为输入，利用所述训练好的强化学习参数模型得到地权　利　要　求　书 2/3 页 3 CN 113705115 B 3

专利 地面无人车辆底盘运动与目标打击协同控制方法和系统

专利地面无人车辆底盘运动与目标打击协同控制方法和系统