专利一种基于MCTS算法的自动泊车运动规划方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111118963.8 (22)申请日 2021.09.24 (71)申请人同济大学地址 200092 上海市杨浦区四平路1239号 (72)发明人陈慧　孙宏伟　宋绍禹　 (74)专利代理机构上海科盛知识产权代理有限公司 312 25 专利代理师翁惠瑜 (51)Int.Cl. B60W 30/06(2006.01) B60W 40/10(2012.01) B60W 40/105(2012.01) B60W 50/00(2006.01) B60W 60/00(2020.01) G06F 30/27(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于MCTS算法的自动泊车运动规划方法 (57)摘要本发明涉及一种基于MCTS算法的自动泊车运动规划方法，包括：获取车辆的初始状态和目标状态，所述的目标状态根据停车位的位置获取，根据初始状态和目标状态sgoal，通过MCTS算法获得最优轨迹数据集，以初始状态为起点，根据最优动作集控制车辆运行至最优末态状态sn，所述的末态状态sn与目标状态sgoal满足误差条件，完成自动泊车。与现有技术相比，本发明具有效率高、适用范围广等优点。权利要求书3页说明书12页附图8页 CN 114906128 A 2022.08.16 CN 114906128 A 1.一种基于 MCTS算法的自动泊车运动规划方法，其特征在于，包括：获取车辆的初始状态和目标状态，所述的目标状态根据停车位的位置获取，根据初始状态和目标状态sgoal，通过MCTS算法获得最优轨迹数据集，所述的最优轨迹数据集表达式为： {(si, αi)|i＝0， 1...n‑1} 其中， i为0时， s0为初始状态， i不为0时， si为车辆的第i个状态， αi为处于状态si下的车辆的当前最优动作，执行αi后车辆的状态由si变为si+1， n为最优动作数量，执行αi+1后车辆状态由si变为si+1，执行αn‑1后车辆状态sn‑1由变为末态状态sn；以初始状态为起点，根据最优动作集控制车辆运行至最优末态状态sn，所述的末态状态 sn与目标状态sgoal满足误差条件，完成自动泊车。 2.根据权利要求1所述的一种基于MCTS算法的自动泊车运动规划方法，其特征在于，在停车位所在平面构建平面坐标系，停车位朝向与平面坐标系X轴平行；所述的状态si的表达式为：其中， xi和yi分别在状态si下车辆后桥中点的横坐标和纵坐标， θi、和vi分别为在状态 si下车辆的运动方向、方向盘转向角和运动速度；所述的动作α 的表达式为：其中，和Δv分别为规划周期Δt内车辆的转向角变化量和速度变化量。 3.根据权利要求2所述的一种基于MCTS算法的自动泊车运动规划方法，其特征在于，通过滑膜控制步骤求解转向角变化量修正值，控制车辆泊车时，用转向角修正量替换当前最优动作中的转向角变化量；所述的转向角变化量修正值的计算公式为： slaw＝c1x2+c2[A+B·u] u＝tan( ψ ) 其中， ψ′为车辆前轮角度修正值， β 为传动比， ψ为车辆当前的方向盘转向角， ψr为参考车辆前轮转角， θ为当前车辆航向角， θr为参考车辆航向角， slaw为趋近率， x1为y轴坐标的误权　利　要　求　书 1/3 页 2 CN 114906128 A 2差， x2为航向角正切值误差， c1和c2为设定权重， L为车辆轴距。 4.根据权利要求2所述的一种基于MCTS算法的自动泊车运动规划方法，其特征在于，所述的MCTS算法包括：构建车辆模型，设定m种候选动作；构建策略神经网络 π；以初始状态为起点，结合策略神经网络π，迭代执行动作寻优步骤，从m种候选动作中逐步挑选当前最优动作，更新当前轨迹数据集；当满足迭代中断条件时，重新构建策略神经网络 π，并迭代执行动作寻优步骤；若通过当前轨迹数据集获取的末态状态sn， now与目标状态sgoal满足误差条件时，迭代结束，此时当前轨迹数据集作为最优轨迹数据集。 5.根据权利要求4所述的一种基于MCTS算法的自动泊车运动规划方法，其特征在于，所述的动作寻优步骤的第i次迭代过程包括：对当前状态为si‑1的车辆模型分别执行m种候选动作α ′i‑1，对应获得m个候选状态s ′i；根据候选状态s ′i和目标状态sgoal，利用策略神经网络πi‑1生成想象轨迹数据集；所述的当前轨迹数据集、 (si‑1, α′i‑1)和想象轨迹数据集构成候选轨迹数据集，总共获得m个候选轨迹数据集；利用奖励评估函数计算每个候选轨迹数据集的奖励值R，获得最大奖励值Ri,max；判断Ri,max是否大于上一次迭代获得的最大奖励值Ri‑1,max，若是则将判定具有最大奖励值Ri ,max的候选轨迹数据集中的候选动作α ′i‑1记为α ′i‑1， best，将(si‑1, α′i‑1， best)加入当前轨迹数据集，根据当前轨迹数据集将车辆模型的当前状态更新为s ′i， best，以具有最大奖励值Ri,max的候选轨迹数据集更新为当前最佳轨迹数据集，否则根据当前最佳轨迹数据集将车辆模型的当前状态更新为s ′i， best，并将s′i， best加入当前轨迹数据集。 6.根据权利要求5所述的一种基于MCTS算法的自动泊车运动规划方法，其特征在于，所述的想象轨迹数据集的生成过程包括：将候选状态s ′i输入当前策略神经网络，获得不同候选动作的概率分布，根据概率分布，通过在线滚动探索算法选取一个候选动作α ′i，根据s′i和α′i获得s′i+1，重复上述步骤，直至当前末态状态s ′n与目标状态sgoal满足误差条件。 7.根据权利要求6所述的一种基于MCTS算法的自动泊车运动规划方法，其特征在于，所述的在线滚动探索算法包括：依次各个候选动作的累积概率值，依次获得m个累积概率值，计算公式为：其中， Pcum(a′j,i)为前j个候选动作的累积概率值；创建一个随机数num∈[0， 1]，选取第一个大于num的累积概率值所对应的候选动作。 8.根据权利要求6所述的一种基于MCTS算法的自动泊车运动规划方法，其特征在于，所述的迭代中断条件包括：权　利　要　求　书 2/3 页 3 CN 114906128 A 3

专利 一种基于MCTS算法的自动泊车运动规划方法

专利一种基于MCTS算法的自动泊车运动规划方法