金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111231850.9 (22)申请日 2021.10.2 2 (71)申请人 南京航空航天大 学 地址 210016 江苏省南京市秦淮区御道街 29号 (72)发明人 杨志斌 幸林泉 肖应民 周勇  黄志球 薛垒  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 代理人 颜盈静 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)B64G 1/24(2006.01) (54)发明名称 一种基于强化学习的航天器自主交会对接 制导策略生成方法 (57)摘要 本发明公开了一种基于强化学习的航天器 自主交会对接制导策略生成方法, 包括: 将航天 器交会对接过程建模为马尔科夫决策过程模型; 采用动态规划算法对马尔科夫决策过程模型进 行求解, 得到所有状态采取不同动作的得分, 生 成决策表; 将决策表中的所有状态作为训练数据 特征, 将决策表中所有状态在每个动作下的得分 作为训练数据标签, 以此构建训练数据; 构建神 经网络模型, 并采用训练数据对神经网络模型进 行训练, 得到作为决策表的近似表 示的神经网络 模型; 对于某一个状态, 通过得到的神经网络模 型计算该状态下所有动作的得分, 选择得分最大 的动作作为最优制导策略; 基于最优制导策略, 航天器进行自主交会 对接。 权利要求书2页 说明书6页 附图2页 CN 114036631 A 2022.02.11 CN 114036631 A 1.一种基于强化学习的航天器自主交会对接制导策略生成方法, 其特征在于: 包括以 下步骤: S100: 将航天器交会 对接过程建模为马尔科 夫决策过程模型; S200: 采用动态规划算法对构建的马尔科夫决策过程模型进行求解, 得到所有状态采 取不同动作的得分; 将某一状态下采用某一个动作的得分作为决策表中的一元素, 以此生 成决策表; S300: 将决策表中的所有状态作为训练数据特征, 将决策表中所有状态在每个动作下 的得分作为训练数据标签, 以此构建训练数据; S400: 构建神经网络模型, 并采用训练数据对神经网络模型进行训练, 得到作为决策表 的近似表示的神经网络模型; S500: 对于某一个状态, 通过S400得到的神经网络模型计算该状态下所有动作的得分, 选择得分最大的动作 作为最优制导策略; S600: 基于最优制导策略, 航天器进行自主交会 对接。 2.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方 法, 其特征在于: S10 0具体实现步骤为: 将航天器交会对接过程分解为x ‑y平面上的相对运动和z方向上的相对运动, 相对运动 模型遵循Cl ohessy‑Wiltshire方程; 取六个变量, 分别为: x方向距离x、 y方向距离y、 z方向距离z、 x方向速度 y方向速度 和z方向速度 一个状态代表所述六个变量 的一种取值, 以此构建状态集; 基于x方向加速 度ux、 y方向加速度uy、 z方向加速度uz, 每个方向的加速度分为正向加速度、 负向加速度、 零 加速度三种类型, 每个类型的取值范围用区间表示, 共二十七个动作组合, 以此构建动作 集; 对状态集中的状态数据与动作集中的动作数据进行离 散化处理; 取离散化处理后的状态集和动作集, 通过定义状态转移方程、 设计奖励函数和定义折 扣因子, 建模得到马尔科 夫决策过程模型。 3.根据权利要求2所述的一种基于强化学习的航天器自主交会对接制导策略生成方 法, 其特征在于: 所述状态转移方程 为Clohessy‑Wiltshire方程。 4.根据权利要求2所述的一种基于强化学习的航天器自主交会对接制导策略生成方 法, 其特征在于: 所述奖励函数表示 为: 式中, 第一个分式项用于减少不必要的推力, 其中, umax表示为可 能的最大的总加速度; 第二项用于鼓励航天器靠近目标, 第三项‑1用于加速收敛 过程; 第四项用于保证航天器能够靠 近目标, ad d随着dist的减小 而增加。 5.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方 法, 其特征在于: 所述动态规划算法为Gaus s–Seidel迭代法。 6.根据权利要求2所述的一种基于强化学习的航天器自主交会对接制导策略生成方权 利 要 求 书 1/2 页 2 CN 114036631 A 2法, 其特征在于: 所述S40 0具体实现步骤为: 构建一个全连接的神经网络模型, 其包括: 输入层、 隐含层、 输出层; 其中, 输入层的节 点数等于状态集的变量数, 输出层的节点数等于动作集的动作数, 隐含层的层数与节点数 可自行定义; 定义神经网络激活函数为ReLU函数, 定义损失函数为非对称均方误差函数, 使用回归 算法与Adam优化器, 采用训练数据对神经网络模型进行训练, 得到作为决策表的近似表示 的神经网络模型。 7.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方 法, 其特征在于: 当得到作为决策表的近似表示的神经网络模 型后, 对得到的神经网络模型 的鲁棒性进行验证, 对验证通过的神经网络模型参与S500的计算, 对验证不通过的神经网 络模型进行调整, 调整后的神经网络模型重新进行鲁棒 性验证; 所述的对得到的神经网络模型的鲁棒 性进行验证, 具体实施步骤 包括: 可视化S20 0得到的决策表和S40 0得到的作为决策表的近似表示的神经网络模型; 在可视化决策表与神经网络模型的基础上, 将输入空间分割为若干格子, 在远离决策 边界的区域内的格子尺寸大于在靠 近决策边界的区域内的格子尺寸; 对于每一个格子, 使用神经网络形式化验证工具, 验证在该格子代表的输入空间内, 有 且只有一个动作, 该动作 作为神经网络模型的最优策略输出; 对于每一个格子, 对比决策表与神经网络模型的最优策略输出, 以此判断神经网络模 型的鲁棒 性。权 利 要 求 书 2/2 页 3 CN 114036631 A 3

.PDF文档 专利 一种基于强化学习的航天器自主交会对接制导策略生成方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的航天器自主交会对接制导策略生成方法 第 1 页 专利 一种基于强化学习的航天器自主交会对接制导策略生成方法 第 2 页 专利 一种基于强化学习的航天器自主交会对接制导策略生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:41:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。