专利无人机决策模型训练方法、使用方法、设备及介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111503559.2 (22)申请日 2021.12.09 (71)申请人南通大学地址 226000 江苏省南通市啬园路9号 (72)发明人袁银龙　焦朋朋　许亚龙　程赟　桑小虎　华亮　李俊红　 (74)专利代理机构深圳市力道知识产权代理事务所(普通合伙) 44507 代理人贺小旺 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 10/06(2012.01) G06Q 50/26(2012.01) (54)发明名称无人机决策模型训练方法、使用方法、设备及介质 (57)摘要本申请公开了一种无人机决策模型训练方法、使用方法、设备及介质，训练方法包括：获取第一无人机的第一态势信息与第二无人机的第二态势信息；根据第一态势信息与第二态势信息生成第一融合信息并输入待训练模型的评估层网络，评估层网络基于第一策略生成分值期望，待训练模型的决策层网络根据分值期望生成第二策略并基于第二策略生成第一动作指令；向第一无人机发送第一动作指令，并获取第一无人机的第三态势信息与第二无人机的第四态势信息；将根据第三态势信息与第四态势信息生成的第二融合信息输入评估层网络以更新第一策略，直至待训练模型训练完成，得到无人机决策模型，通过该模型提升无人机的适应能力、实现无人机决策的自主化与智能化。权利要求书3页说明书14页附图4页 CN 114239392 A 2022.03.25 CN 114239392 A 1.一种无人机决策模型训练方法，其特征在于，所述方法包括：向第一无人机发送初始化指令，以使所述第一无人机根据所述初始化指令采集所述第一无人机的第一态势信息与第二无人机的第二态势信息；获取所述第一态势信息与所述第二态势信息，并根据所述第一态势信息与所述第二态势信息生成第一融合信息；将所述第一融合信息输入待训练模型的评估层网络，所述评估层网络基于预设的第一策略生成与所述第一融合信息对应的分值期望；所述待训练模型的决策层网络根据所述分值期望生成第二策略，并基于所述第二策略生成与所述第一融合信息对应的第一动作指令；向所述第一无人机发送所述第一动作指令，以使所述第一无人机根据所述第一动作指令执行第一动作并在执行所述第一动作后采集所述第一无人机的第三态势信息以及所述第二无人机的第四态势信息；获取所述第一无人机采集的所述第三态势信息与所述第四态势信息，并根据所述第三态势信息与所述第四态势信息生成第二融合信息；将所述第二融合信息输入所述评估层网络以更新所述第一策略，直至所述待训练模型训练完成，得到无人机决策模型。 2.根据权利要求1所述的方法，其特征在于，所述将所述第二融合信息输入所述评估层网络以更新所述第一策略之后，还包括：将所述第二融合信息输入所述评估层网络，所述评估层网络基于更新后的所述第一策略生成与所述第二融合信息对应的优化期望；所述决策层网络根据所述优化期望更新所述第二策略，并基于更新后的所述第二策略生成与所述第二融合信息对应的第二动作指令；向所述第一无人机发送所述第二动作指令，以使所述第一无人机根据所述第二动作指令执行第二动作并在执行所述第二动作后采集所述第一无人机的第五态势信息以及所述第二无人机的第六态势信息；获取所述第一无人机采集的所述第五态势信息与所述第六态势信息，并根据所述第五态势信息与所述第六态势信息生成第三融合信息；将所述第三融合信息输入所述评估层网络以更新所述第一策略。 3.根据权利要求1所述的方法，其特征在于，所述获取所述第一态势信息与所述第二态势信息，并根据所述第一态势信息与所述第二态势信息生成第一融合信息，包括：获取所述第一无人机采集的所述第一态势信息、与多台所述第一无人机采集的所述第二态势信息；根据多台所述第一无人机采集的所述第二态势信息获取所述第二无人机的准确态势信息；根据所述第一态势信息与所述准确态势信息生成对应所述第一无人机的所述第一融合信息。 4.根据权利要求3所述的方法，其特征在于，所述根据多台所述第一无人机采集的所述第二态势信息获取所述第二无人机的准确态势信息，包括：解析所述第二态势信息获取所述第二无人机的第二位置信息与第二姿态信息；权　利　要　求　书 1/3 页 2 CN 114239392 A 2根据多个所述第二位置信息确定所述第二无人机的准确位置信息；获取多台所述第一无人机采集所述第二姿态信息的采集位置，并计算所述采集位置与所述准确位置信息的空间距离；确定所述空间距离符合预设距离范围的采集位置，并根据所述采集位置对应的第二姿态信息确定所述第二无人机的准确姿态信息；根据所述准确位置信息与所述准确姿态信息确定所述第二无人机的准确态势信息。 5.根据权利要求1 ‑4任一项所述的方法，其特征在于，所述将所述第二融合信息输入所述评估层网络以更新所述第一策略，包括：根据所述第二融合信息确定所述第一动作指令对应的任务执行结果；当所述任务执行结果为失败时，基于预设的评分函数并根据所述第二融合信息计算预评分信息；根据所述预评分信息与预设的目标评分信息确定所述评估层网络输出所述分值期望的目标值，并根据所述第一融合信息与所述目标值调整所述第一策略。 6.根据权利要求5所述的方法，其特征在于，所述确定所述动作指令对应的任务执行结果之后，还包括：当所述任务执行结果为成功时，以所述预评分信息作为所述分值期望的目标值，并根据所述第一融合信息与所述目标值调整所述第一策略。 7.根据权利要求5所述的方法，其特征在于，所述基于预设的评分函数并根据所述第二融合信息计算预评分信息，包括：解析所述第二融合信息，获取所述第一无人机的第三位置信息与第三姿态信息、以及所述第二无人机的第四位置信息与第四姿态信息；根据所述第三位置信息与所述第四位置信息确定用于表征所述第一无人机与所述第二无人机距离的第一距离信息、以及用于表征所述第一无人机与预设目标区域距离的第二距离信息；根据所述第一当前姿态与所述第二当前姿态确定用于表征所述第一无人机与所述第二无人机的机身角度差的角度差信息；基于预设的评分函数，根据所述第一距离信息、所述第二距离信息、与所述角度差信息计算所述预评分信息。 8.一种无人机决策模型使用方法，其特征在于，所述方法包括：接收决策指令并根据所述决策指令调用无人机决策模型，其中，所述无人机决策模型为采用权利要求1至7中任一项所述的无人机决策模型训练方法得到；接收第一无人机采集的第一当前态势信息及第二当前态势信息，并根据所述第一当前态势信息及所述第二当前态势信息生成当前融合信息；将所述当前融合信息输入所述无人机决策模型得到与所述当前融合信息对应的动作指令；向所述第一无人机发送所述动作指令，以使所述第一无人机根据所述动作指令执行对应的动作。 9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；所述存储器，用于存储计算机程序；权　利　要　求　书 2/3 页 3 CN 114239392 A 3

专利 无人机决策模型训练方法、使用方法、设备及介质

专利无人机决策模型训练方法、使用方法、设备及介质