金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111118963.8 (22)申请日 2021.09.24 (71)申请人 同济大学 地址 200092 上海市杨 浦区四平路1239号 (72)发明人 陈慧 孙宏伟 宋绍禹  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 专利代理师 翁惠瑜 (51)Int.Cl. B60W 30/06(2006.01) B60W 40/10(2012.01) B60W 40/105(2012.01) B60W 50/00(2006.01) B60W 60/00(2020.01) G06F 30/27(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于MCTS算法的自动泊车运动规划方 法 (57)摘要 本发明涉及一种基于MCTS算法的自动泊车 运动规划方法, 包括: 获取车辆的初始状态和目 标状态, 所述的目标状态根据停车位的位置获 取, 根据初始状态和目标状态sgoal, 通过MCTS算 法获得最优轨迹数据集, 以初始状态为起点, 根 据最优动作 集控制车辆运行至最优末态状态sn, 所述的末态状态sn与目标状态sgoal满足误差条 件, 完成自动 泊车。 与现有 技术相比, 本发明具有 效率高、 适用范围广等优点。 权利要求书3页 说明书12页 附图8页 CN 114906128 A 2022.08.16 CN 114906128 A 1.一种基于 MCTS算法的自动泊车运动规划方法, 其特 征在于, 包括: 获取车辆的初始状态和目标状态, 所述的目标状态根据停车位的位置获取, 根据初始 状态和目标状态sgoal, 通过MCTS算法获得最优轨迹数据集, 所述 的最优轨迹数据集表达式 为: {(si, αi)|i=0, 1...n‑1} 其中, i为0时, s0为初始状态, i不为0时, si为车辆的第i个状态, αi为处于状态si下的车 辆的当前最优动 作, 执行αi后车辆的状态由si变为si+1, n为最优动作数量, 执行αi+1后车辆状 态由si变为si+1, 执行αn‑1后车辆状态sn‑1由变为末态状态sn; 以初始状态为起点, 根据最优动作集控制车辆运行至最优末态 状态sn, 所述的末态 状态 sn与目标状态sgoal满足误差条件, 完成自动泊车。 2.根据权利要求1所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 在 停车位所在平面构建平面 坐标系, 停车位朝向与平面 坐标系X轴平行; 所述的状态si的表达式为: 其中, xi和yi分别在状态si下车辆后桥中点的横 坐标和纵坐标, θi、 和vi分别为在状态 si下车辆的运动方向、 方向盘转向角和运动速度; 所述的动作α 的表达式为: 其中, 和Δv分别为 规划周期Δt内车辆的转向角变化 量和速度变化 量。 3.根据权利要求2所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 通 过滑膜控制步骤求解转向角变化量修正值, 控制车辆泊车时, 用转向角修正量替换当前最 优动作中的转向角变化 量; 所述的转向角变化 量修正值 的计算公式为: slaw=c1x2+c2[A+B·u] u=tan( ψ ) 其中, ψ′为车辆前轮角度修正值, β 为传动比, ψ为车辆当前的方向盘转向角, ψr为参考车 辆前轮转角, θ为当前车辆航向角, θr为参考车辆航向角, slaw为趋近率, x1为y轴坐标的误权 利 要 求 书 1/3 页 2 CN 114906128 A 2差, x2为航向角正切值 误差, c1和c2为设定权重, L为车辆轴距。 4.根据权利要求2所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 所 述的MCTS算法包括: 构建车辆模型, 设定m种候选动作; 构建策略神经网络 π; 以初始状态为起点, 结合策略神经网络π, 迭代执行动作寻优步骤, 从m种候选动作中逐 步挑选当前最优动作, 更新当前轨 迹数据集; 当满足迭代中断条件时, 重新构建策略神经网络 π, 并迭代执 行动作寻优步骤; 若通过当前轨迹数据集获取的末态状态sn, now与目标状态sgoal满足误差条件时, 迭代结 束, 此时当前轨 迹数据集作为 最优轨迹数据集。 5.根据权利要求4所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 所 述的动作寻优步骤的第i次迭代过程包括: 对当前状态为si‑1的车辆模型分别执 行m种候选动作α ′i‑1, 对应获得m个候选状态s ′i; 根据候选状态s ′i和目标状态sgoal, 利用策略神经 网络πi‑1生成想象轨迹数据集; 所述的 当前轨迹数据集、 (si‑1, α′i‑1)和想象轨迹数据集构成候选轨迹数据集, 总共获得m个候选轨 迹数据集; 利用奖励评估函数计算每 个候选轨迹数据集的奖励值R, 获得最大 奖励值Ri,max; 判断Ri,max是否大于上一次迭代获得的最大 奖励值Ri‑1,max, 若是则将判定具有最大奖励值Ri ,max的候选轨迹数据集中的候选动作α ′i‑1记为α ′i‑1, best, 将(si‑1, α′i‑1, best)加入当前轨迹数据集, 根据当前轨迹数据集将车辆模型的当前 状态更新为s ′i, best, 以具有最大奖励值Ri,max的候选轨迹数据集更新为当前最佳轨迹数据 集, 否则根据当前最佳轨迹数据集将车辆模型的当前状态更新为s ′i, best, 并将s′i, best加入 当前轨迹数据集。 6.根据权利要求5所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 所 述的想象轨 迹数据集的生成过程包括: 将候选状态s ′i输入当前策略神经网络, 获得不同候选动作的概率 分布, 根据概率 分布, 通过在线滚动探索算法选取一个候选动作α ′i, 根据s′i和α′i获得s′i+1, 重复上述步骤, 直至当前末态状态s ′n与目标状态sgoal满足误差 条件。 7.根据权利要求6所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 所 述的在线滚动探索算法包括: 依次各个候选动作的累积概 率值, 依次获得m个累积概 率值, 计算公式为: 其中, Pcum(a′j,i)为前j个候选动作的累积概 率值; 创建一个随机数num∈[0, 1], 选取第一个大于num的累积概 率值所对应的候选动作。 8.根据权利要求6所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 所 述的迭代中断条件 包括:权 利 要 求 书 2/3 页 3 CN 114906128 A 3

.PDF文档 专利 一种基于MCTS算法的自动泊车运动规划方法

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于MCTS算法的自动泊车运动规划方法 第 1 页 专利 一种基于MCTS算法的自动泊车运动规划方法 第 2 页 专利 一种基于MCTS算法的自动泊车运动规划方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:41:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。