金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111279251.4 (22)申请日 2021.11.01 (65)同一申请的已公布的文献号 申请公布号 CN 113705115 A (43)申请公布日 2021.11.26 (73)专利权人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 专利权人 北理慧动 (北京) 科技有限公司 (72)发明人 龚建伟 李子睿 魏连震 左寅初  吕超 臧政  (74)专利代理 机构 北京高沃 律师事务所 1 1569 代理人 董领逊 (51)Int.Cl. G06F 30/27(2020.01)G06F 30/15(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (56)对比文件 CN 112364774 A,2021.02.12 CN 111328018 A,2020.0 6.23 CN 110209126 A,2019.09.0 6 WO 2016/129671 A1,2016.08.18 审查员 李易玮 (54)发明名称 地面无人车辆底盘运动与目标打击协同控 制方法和系统 (57)摘要 本发明涉及一种地面无人车辆底盘运动与 目标打击协同控制方法和系统。 本发 明通过搭建 好的仿真场景对搭建好的强化学习参数模型进 行训练和测试, 得到训练好的强化学习参数模 型, 可以将特种车辆类型和强化学习参数模型进 行有机结合, 并且, 在实际环境中, 输入 车辆传感 器实时采集到的各种信息作为深度强化学习的 输入, 最终实现对地面无人车辆底盘运动与目标 打击协同控制, 以能够实现自主机动模块与自主 任务模块的协同, 在缩短任务的完成时间, 提升 任务执行效果。 进一步, 基于仿真数据的强化学 习方法, 能够使数据获取的成本低, 而且与基于 规则的数学模型方法相比, 只需要对输入数据、 输出动作、 奖赏函数做适当修改即可应用于新的 场景, 普适 性更好。 权利要求书3页 说明书9页 附图2页 CN 113705115 B 2022.02.08 CN 113705115 B 1.一种地 面无人车辆底盘运动与目标打击协同控制方法, 其特 征在于, 包括: 搭建实车环境对应的仿真场景; 搭建强化学习参数模型; 所述强化学习参数模型包括: 全连接层、 状态值网络、 动作值 网络和dropout网络; 采用所述仿真场景对搭建好的所述强化学习参数模型进行训练和测试, 得到训练好的 强化学习参数模型; 将地面无人车辆的传感器信 息作为输入, 利用所述训练好的强化学习参数模型进行地 面无人车辆底盘运动和目标打击的协同控制; 所述搭建强化学习参数模型, 具体包括: 设置全连接层、 “预测A网络 ”、“目标A网络 ”、“预测C网络 ”和“目标C网络 ”; 所述“预测A 网络”和所述“目标A网络 ”的结构一致; 所述 “预测A网络 ”采用的更新方式为 实时更新; 所述 “目标A网络 ”采用的更新方式为软更新; 所述 “预测C网络 ”和所述“目标C网络 ”的结构一致; 所述“预测C网络 ”采用的更新方式为实时更新; 所述 “目标C网络 ”采用的更新方式为软更 新; 所述“预测A网络 ”用于根据输入的当前状态选择输出动作; 所述 “目标A网络 ”用于确定 下一状态选择对应的最优动作; 所述 “预测C网络 ”用于预测动作的Q值, 所述 “目标C网络 ”用 于确定动作的真实Q 值。 2.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法, 其特征在 于, 所述采用所述仿真场景对搭建好的所述强化学习参数模型进行训练和测试, 得到训练 好的强化学习参数模型, 具体包括: 采用所述仿真场景对搭建好的所述强化学习参数模型进行一定步数的训练以获得多 组数据, 并将获取的多组数据存 储在经验 池中; 从所述经验 池中抽出若干条 数据并不断更新所述强化学习参数模型的网络参数值。 3.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法, 其特征在 于, 所述设置全连接层、 “预测A网络 ”、“目标A网络 ”、“预测C网络 ”和“目标C网络 ”, 具体包 括: 设置损失函数; 所述损失函数 的通用公式如下: 式中, N为一次性训练的数据个 数, L为损失函数, xi和 θ均为输入 量, f为根据输入 参数计 算得到的输出 预测值, yi为输入条件下的实际输出值; 所述“预测A网络 ”根据输入s的变化计算更新动作a; 所述 “预测A网络 ”的更新公式为: 式中, τ 是常值 参数, 是“目标A网络 ”参数, 是“预测A网络 ”的参数; 所述“预测A网络 ”和所述“目标A网络 ”更新依据的梯度公式为: 权 利 要 求 书 1/3 页 2 CN 113705115 B 2式中, 为在si状态下、 采取动作a的条件下, Q值对动 作a的梯度; 为si状态下对神经网络的梯度; 所述“预测C网络 ”根据输入 的状态s和动作a计算更新预测Q值; 所述 “预测C网络 ”的更 新公式为: 式中, τ 是常值 参数, 是“目标C网络 ”的参数, 是“预测C网络 ”的参数; 所述“预测C网络 ”和所述“目标C网络 ”更新依据的损失函数公式为: 式中, yi代表的是真实Q值, Q代表的是预测Q值, ri代奖励值, 代表一次性训练的数据个 数, si代表状态, ai代表动作; 设置奖赏函数; 所述奖赏函数为在 状态si条件下, 无人车辆做出动作ai后达到状态si+1; 所述奖赏 函数为: 式中, zj代表车辆距离 终点的相对距离关系, zx1代表对第一个敌方目标的打击效果, zx2 代表对第二个敌方目标的打击效果, zp代表车辆是否与障碍物进行碰撞干涉; 利用优化器进行梯度下降; 选用Adam  Optimizer对所述优化器 的参数进行更新, 利用 梯度的一阶矩估计和二阶矩估计动态调整每 个参数的学习率, 计算公式为: 式中, α是学习率, gt是t次迭代代价函数对网络参数的梯度, θt是当前时刻的参数值, 是上一时刻的参数值, mt是一阶动量项, vt是二阶动量项, 均是动量修正项, 均是常值 参数。 4.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法, 其特征在 于, 地面无人车辆底盘为履带式底盘、 轮式底盘或轮腿式底盘。 5.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法, 其特征在 于, 将地面无人车辆的传感器信息作为输入, 利用所述训练好的强化学习参数模型进行地 面无人车辆底盘运动和目标打击的协同控制, 具体包括: 将地面无人车辆的传感器信 息作为输入, 利用所述训练好的强化学习参数模型得到地权 利 要 求 书 2/3 页 3 CN 113705115 B 3

.PDF文档 专利 地面无人车辆底盘运动与目标打击协同控制方法和系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 地面无人车辆底盘运动与目标打击协同控制方法和系统 第 1 页 专利 地面无人车辆底盘运动与目标打击协同控制方法和系统 第 2 页 专利 地面无人车辆底盘运动与目标打击协同控制方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:16:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。