(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111118963.8
(22)申请日 2021.09.24
(71)申请人 同济大学
地址 200092 上海市杨 浦区四平路1239号
(72)发明人 陈慧 孙宏伟 宋绍禹
(74)专利代理 机构 上海科盛知识产权代理有限
公司 312 25
专利代理师 翁惠瑜
(51)Int.Cl.
B60W 30/06(2006.01)
B60W 40/10(2012.01)
B60W 40/105(2012.01)
B60W 50/00(2006.01)
B60W 60/00(2020.01)
G06F 30/27(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于MCTS算法的自动泊车运动规划方
法
(57)摘要
本发明涉及一种基于MCTS算法的自动泊车
运动规划方法, 包括: 获取车辆的初始状态和目
标状态, 所述的目标状态根据停车位的位置获
取, 根据初始状态和目标状态sgoal, 通过MCTS算
法获得最优轨迹数据集, 以初始状态为起点, 根
据最优动作 集控制车辆运行至最优末态状态sn,
所述的末态状态sn与目标状态sgoal满足误差条
件, 完成自动 泊车。 与现有 技术相比, 本发明具有
效率高、 适用范围广等优点。
权利要求书3页 说明书12页 附图8页
CN 114906128 A
2022.08.16
CN 114906128 A
1.一种基于 MCTS算法的自动泊车运动规划方法, 其特 征在于, 包括:
获取车辆的初始状态和目标状态, 所述的目标状态根据停车位的位置获取, 根据初始
状态和目标状态sgoal, 通过MCTS算法获得最优轨迹数据集, 所述 的最优轨迹数据集表达式
为:
{(si, αi)|i=0, 1...n‑1}
其中, i为0时, s0为初始状态, i不为0时, si为车辆的第i个状态, αi为处于状态si下的车
辆的当前最优动 作, 执行αi后车辆的状态由si变为si+1, n为最优动作数量, 执行αi+1后车辆状
态由si变为si+1, 执行αn‑1后车辆状态sn‑1由变为末态状态sn;
以初始状态为起点, 根据最优动作集控制车辆运行至最优末态 状态sn, 所述的末态 状态
sn与目标状态sgoal满足误差条件, 完成自动泊车。
2.根据权利要求1所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 在
停车位所在平面构建平面 坐标系, 停车位朝向与平面 坐标系X轴平行;
所述的状态si的表达式为:
其中, xi和yi分别在状态si下车辆后桥中点的横 坐标和纵坐标, θi、
和vi分别为在状态
si下车辆的运动方向、 方向盘转向角和运动速度;
所述的动作α 的表达式为:
其中,
和Δv分别为 规划周期Δt内车辆的转向角变化 量和速度变化 量。
3.根据权利要求2所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 通
过滑膜控制步骤求解转向角变化量修正值, 控制车辆泊车时, 用转向角修正量替换当前最
优动作中的转向角变化 量;
所述的转向角变化 量修正值
的计算公式为:
slaw=c1x2+c2[A+B·u]
u=tan( ψ )
其中, ψ′为车辆前轮角度修正值, β 为传动比, ψ为车辆当前的方向盘转向角, ψr为参考车
辆前轮转角, θ为当前车辆航向角, θr为参考车辆航向角, slaw为趋近率, x1为y轴坐标的误权 利 要 求 书 1/3 页
2
CN 114906128 A
2差, x2为航向角正切值 误差, c1和c2为设定权重, L为车辆轴距。
4.根据权利要求2所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 所
述的MCTS算法包括:
构建车辆模型, 设定m种候选动作;
构建策略神经网络 π;
以初始状态为起点, 结合策略神经网络π, 迭代执行动作寻优步骤, 从m种候选动作中逐
步挑选当前最优动作, 更新当前轨 迹数据集;
当满足迭代中断条件时, 重新构建策略神经网络 π, 并迭代执 行动作寻优步骤;
若通过当前轨迹数据集获取的末态状态sn, now与目标状态sgoal满足误差条件时, 迭代结
束, 此时当前轨 迹数据集作为 最优轨迹数据集。
5.根据权利要求4所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 所
述的动作寻优步骤的第i次迭代过程包括:
对当前状态为si‑1的车辆模型分别执 行m种候选动作α ′i‑1, 对应获得m个候选状态s ′i;
根据候选状态s ′i和目标状态sgoal, 利用策略神经 网络πi‑1生成想象轨迹数据集; 所述的
当前轨迹数据集、 (si‑1, α′i‑1)和想象轨迹数据集构成候选轨迹数据集, 总共获得m个候选轨
迹数据集;
利用奖励评估函数计算每 个候选轨迹数据集的奖励值R, 获得最大 奖励值Ri,max;
判断Ri,max是否大于上一次迭代获得的最大 奖励值Ri‑1,max,
若是则将判定具有最大奖励值Ri ,max的候选轨迹数据集中的候选动作α ′i‑1记为α
′i‑1, best, 将(si‑1, α′i‑1, best)加入当前轨迹数据集, 根据当前轨迹数据集将车辆模型的当前
状态更新为s ′i, best, 以具有最大奖励值Ri,max的候选轨迹数据集更新为当前最佳轨迹数据
集,
否则根据当前最佳轨迹数据集将车辆模型的当前状态更新为s ′i, best, 并将s′i, best加入
当前轨迹数据集。
6.根据权利要求5所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 所
述的想象轨 迹数据集的生成过程包括:
将候选状态s ′i输入当前策略神经网络, 获得不同候选动作的概率 分布, 根据概率 分布,
通过在线滚动探索算法选取一个候选动作α ′i,
根据s′i和α′i获得s′i+1, 重复上述步骤, 直至当前末态状态s ′n与目标状态sgoal满足误差
条件。
7.根据权利要求6所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 所
述的在线滚动探索算法包括:
依次各个候选动作的累积概 率值, 依次获得m个累积概 率值, 计算公式为:
其中, Pcum(a′j,i)为前j个候选动作的累积概 率值;
创建一个随机数num∈[0, 1], 选取第一个大于num的累积概 率值所对应的候选动作。
8.根据权利要求6所述的一种基于MCTS算法的自动泊车运动规划方法, 其特征在于, 所
述的迭代中断条件 包括:权 利 要 求 书 2/3 页
3
CN 114906128 A
3
专利 一种基于MCTS算法的自动泊车运动规划方法
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:41:00上传分享