专利一种基于强化学习的航天器自主交会对接制导策略生成方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111231850.9 (22)申请日 2021.10.2 2 (71)申请人南京航空航天大学地址 210016 江苏省南京市秦淮区御道街 29号 (72)发明人杨志斌　幸林泉　肖应民　周勇　黄志球　薛垒　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 代理人颜盈静 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)B64G 1/24(2006.01) (54)发明名称一种基于强化学习的航天器自主交会对接制导策略生成方法 (57)摘要本发明公开了一种基于强化学习的航天器自主交会对接制导策略生成方法，包括：将航天器交会对接过程建模为马尔科夫决策过程模型；采用动态规划算法对马尔科夫决策过程模型进行求解，得到所有状态采取不同动作的得分，生成决策表；将决策表中的所有状态作为训练数据特征，将决策表中所有状态在每个动作下的得分作为训练数据标签，以此构建训练数据；构建神经网络模型，并采用训练数据对神经网络模型进行训练，得到作为决策表的近似表示的神经网络模型；对于某一个状态，通过得到的神经网络模型计算该状态下所有动作的得分，选择得分最大的动作作为最优制导策略；基于最优制导策略，航天器进行自主交会对接。权利要求书2页说明书6页附图2页 CN 114036631 A 2022.02.11 CN 114036631 A 1.一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：包括以下步骤： S100：将航天器交会对接过程建模为马尔科夫决策过程模型； S200：采用动态规划算法对构建的马尔科夫决策过程模型进行求解，得到所有状态采取不同动作的得分；将某一状态下采用某一个动作的得分作为决策表中的一元素，以此生成决策表； S300：将决策表中的所有状态作为训练数据特征，将决策表中所有状态在每个动作下的得分作为训练数据标签，以此构建训练数据； S400：构建神经网络模型，并采用训练数据对神经网络模型进行训练，得到作为决策表的近似表示的神经网络模型； S500：对于某一个状态，通过S400得到的神经网络模型计算该状态下所有动作的得分，选择得分最大的动作作为最优制导策略； S600：基于最优制导策略，航天器进行自主交会对接。 2.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于： S10 0具体实现步骤为：将航天器交会对接过程分解为x ‑y平面上的相对运动和z方向上的相对运动，相对运动模型遵循Cl ohessy‑Wiltshire方程；取六个变量，分别为： x方向距离x、 y方向距离y、 z方向距离z、 x方向速度 y方向速度和z方向速度一个状态代表所述六个变量的一种取值，以此构建状态集；基于x方向加速度ux、 y方向加速度uy、 z方向加速度uz，每个方向的加速度分为正向加速度、负向加速度、零加速度三种类型，每个类型的取值范围用区间表示，共二十七个动作组合，以此构建动作集；对状态集中的状态数据与动作集中的动作数据进行离散化处理；取离散化处理后的状态集和动作集，通过定义状态转移方程、设计奖励函数和定义折扣因子，建模得到马尔科夫决策过程模型。 3.根据权利要求2所述的一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：所述状态转移方程为Clohessy‑Wiltshire方程。 4.根据权利要求2所述的一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：所述奖励函数表示为：式中，第一个分式项用于减少不必要的推力，其中， umax表示为可能的最大的总加速度；第二项用于鼓励航天器靠近目标，第三项‑1用于加速收敛过程；第四项用于保证航天器能够靠近目标， ad d随着dist的减小而增加。 5.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：所述动态规划算法为Gaus s–Seidel迭代法。 6.根据权利要求2所述的一种基于强化学习的航天器自主交会对接制导策略生成方权　利　要　求　书 1/2 页 2 CN 114036631 A 2法，其特征在于：所述S40 0具体实现步骤为：构建一个全连接的神经网络模型，其包括：输入层、隐含层、输出层；其中，输入层的节点数等于状态集的变量数，输出层的节点数等于动作集的动作数，隐含层的层数与节点数可自行定义；定义神经网络激活函数为ReLU函数，定义损失函数为非对称均方误差函数，使用回归算法与Adam优化器，采用训练数据对神经网络模型进行训练，得到作为决策表的近似表示的神经网络模型。 7.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：当得到作为决策表的近似表示的神经网络模型后，对得到的神经网络模型的鲁棒性进行验证，对验证通过的神经网络模型参与S500的计算，对验证不通过的神经网络模型进行调整，调整后的神经网络模型重新进行鲁棒性验证；所述的对得到的神经网络模型的鲁棒性进行验证，具体实施步骤包括：可视化S20 0得到的决策表和S40 0得到的作为决策表的近似表示的神经网络模型；在可视化决策表与神经网络模型的基础上，将输入空间分割为若干格子，在远离决策边界的区域内的格子尺寸大于在靠近决策边界的区域内的格子尺寸；对于每一个格子，使用神经网络形式化验证工具，验证在该格子代表的输入空间内，有且只有一个动作，该动作作为神经网络模型的最优策略输出；对于每一个格子，对比决策表与神经网络模型的最优策略输出，以此判断神经网络模型的鲁棒性。权　利　要　求　书 2/2 页 3 CN 114036631 A 3

专利 一种基于强化学习的航天器自主交会对接制导策略生成方法

专利一种基于强化学习的航天器自主交会对接制导策略生成方法