金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111503559.2 (22)申请日 2021.12.09 (71)申请人 南通大学 地址 226000 江苏省南 通市啬园路9号 (72)发明人 袁银龙 焦朋朋 许亚龙 程赟  桑小虎 华亮 李俊红  (74)专利代理 机构 深圳市力道知识产权代理事 务所(普通 合伙) 44507 代理人 贺小旺 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 10/06(2012.01) G06Q 50/26(2012.01) (54)发明名称 无人机决策模型训练方法、 使用方法、 设备 及介质 (57)摘要 本申请公开了一种无人机决策模型训练方 法、 使用方法、 设备及介质, 训练方法包括: 获取 第一无人机的第一态势信息与第二无人机的第 二态势信息; 根据第一态势信息与第二态势信息 生成第一融合信息并输入待训练模型的评估层 网络, 评估层网络基于第一策略生成分值期望, 待训练模型的决策层网络根据分值期望生成第 二策略并基于第二策略生 成第一动作指令; 向第 一无人机发送第一动作指令, 并获取第一无人机 的第三态势信息与第二无人机的第四态势信息; 将根据第三态势信息与第四态势信息生成的第 二融合信息输入评估层网络以更新第一策略, 直 至待训练模型训练完成, 得到无人机决策模型, 通过该模型提升无人机的适应能力、 实现无人机 决策的自主化与智能化。 权利要求书3页 说明书14页 附图4页 CN 114239392 A 2022.03.25 CN 114239392 A 1.一种无 人机决策模型训练方法, 其特 征在于, 所述方法包括: 向第一无人机发送初始化指令, 以使所述第 一无人机根据 所述初始化指令采集所述第 一无人机的第一态 势信息与第二无 人机的第二态 势信息; 获取所述第 一态势信 息与所述第二态势信 息, 并根据所述第 一态势信 息与所述第二态 势信息生成第一融合信息; 将所述第一融合信 息输入待训练模型的评估层网络, 所述评估层网络基于预设的第 一 策略生成与所述第一融合信息对应的分值期望; 所述待训练模型的决策层网络根据 所述分值期望生成第 二策略, 并基于所述第 二策略 生成与所述第一融合信息对应的第一动作指令; 向所述第一无人机发送所述第 一动作指令, 以使所述第 一无人机根据 所述第一动作指 令执行第一动作并在执行所述第一动作后采集所述第一无人机的第三态势信息以及所述 第二无人机的第四态 势信息; 获取所述第 一无人机采集的所述第 三态势信 息与所述第四态势信 息, 并根据 所述第三 态势信息与所述第四态 势信息生成第二融合信息; 将所述第二融合信 息输入所述评估层网络以更新所述第 一策略, 直至所述待训练模型 训练完成, 得到无 人机决策模型。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述第 二融合信 息输入所述评估层 网络以更新所述第一策略之后, 还 包括: 将所述第二融合信 息输入所述评估层网络, 所述评估层网络基于更新后的所述第 一策 略生成与所述第二融合信息对应的优化期望; 所述决策层网络根据 所述优化期望更新所述第 二策略, 并基于更新后的所述第 二策略 生成与所述第二融合信息对应的第二动作指令; 向所述第一无人机发送所述第 二动作指令, 以使所述第 一无人机根据 所述第二动作指 令执行第二动作并在执行所述第二动作后采集所述第一无人机的第 五态势信息以及所述 第二无人机的第六态 势信息; 获取所述第 一无人机采集的所述第五态势信 息与所述第六态势信 息, 并根据 所述第五 态势信息与所述第六态 势信息生成第三融合信息; 将所述第三融合信息 输入所述评估层网络以更新所述第一策略。 3.根据权利要求1所述的方法, 其特征在于, 所述获取所述第 一态势信 息与所述第二态 势信息, 并根据所述第一态 势信息与所述第二态 势信息生成第一融合信息, 包括: 获取所述第 一无人机采集的所述第 一态势信 息、 与多台所述第 一无人机采集的所述第 二态势信息; 根据多台所述第一无人机采集的所述第二态势信息获取所述第二无人机的准确态势 信息; 根据所述第一态势信息与所述准确态势信息生成对应所述第一无人机的所述第一融 合信息。 4.根据权利要求3所述的方法, 其特征在于, 所述根据多台所述第 一无人机采集的所述 第二态势信息获取 所述第二无 人机的准确态 势信息, 包括: 解析所述第二态 势信息获取 所述第二无 人机的第二 位置信息与第二姿态信息;权 利 要 求 书 1/3 页 2 CN 114239392 A 2根据多个所述第二 位置信息确定所述第二无 人机的准确位置信息; 获取多台所述第 一无人机采集所述第 二姿态信 息的采集位置, 并计算所述采集位置与 所述准确位置信息的空间距离; 确定所述空间距离符合预设距离范围的采集位置, 并根据 所述采集位置对应的第 二姿 态信息确定所述第二无 人机的准确姿态信息; 根据所述 准确位置信息与所述 准确姿态信息确定所述第二无 人机的准确态 势信息。 5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述将所述第 二融合信 息输入所 述评估层网络以更新所述第一策略, 包括: 根据所述第二融合信息确定所述第一动作指令对应的任务执 行结果; 当所述任务执行结果为失败时, 基于预设的评分函数并根据所述第 二融合信 息计算预 评分信息; 根据所述预评分信息与预设的目标评分信息确定所述评估层网络输出所述分值期望 的目标值, 并根据所述第一融合信息与所述目标值调整所述第一策略。 6.根据权利要求5所述的方法, 其特征在于, 所述确定所述动作指令对应的任务执行结 果之后, 还 包括: 当所述任务执行结果为成功时, 以所述预评分信息作为所述分值期望的目标值, 并根 据所述第一融合信息与所述目标值调整所述第一策略。 7.根据权利要求5所述的方法, 其特征在于, 所述基于预设的评分函数并根据 所述第二 融合信息计算预评分信息, 包括: 解析所述第二融合信息, 获取所述第一无人机的第三位置信息与第三姿态信息、 以及 所述第二无 人机的第四位置信息与第四姿态信息; 根据所述第三位置信息与所述第四位置信息确定用于表征所述第一无人机与所述第 二无人机距离的第一距离信息、 以及用于表征所述第一无人机与预设目标区域距离的第二 距离信息; 根据所述第一当前姿态与所述第二当前姿态确定用于表征所述第一无人机与所述第 二无人机的机身角度差的角度差信息; 基于预设的评分函数, 根据 所述第一距离信 息、 所述第 二距离信 息、 与所述角度差信 息 计算所述预评分信息 。 8.一种无 人机决策模型使用方法, 其特 征在于, 所述方法包括: 接收决策指令并根据所述决策指令调用无人机决策模型, 其中, 所述无人机决策模型 为采用权利要求1至7中任一项所述的无 人机决策模型训练方法得到; 接收第一无人机采集的第 一当前态势信 息及第二当前态势信 息, 并根据 所述第一当前 态势信息及所述第二当前态 势信息生成当前融合信息; 将所述当前融合信息输入所述无人机决策模型得到与所述当前融合信息对应的动作 指令; 向所述第一无人机发送所述动作指令, 以使所述第 一无人机根据 所述动作指令执行对 应的动作。 9.一种计算机设备, 其特 征在于, 所述计算机设备包括存 储器和处 理器; 所述存储器, 用于存 储计算机程序;权 利 要 求 书 2/3 页 3 CN 114239392 A 3

.PDF文档 专利 无人机决策模型训练方法、使用方法、设备及介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 无人机决策模型训练方法、使用方法、设备及介质 第 1 页 专利 无人机决策模型训练方法、使用方法、设备及介质 第 2 页 专利 无人机决策模型训练方法、使用方法、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:29:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。