专利一种基于深度强化学习的车辆行驶状态估计系统及方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111268341.3 (22)申请日 2021.10.28 (71)申请人中国北方车辆研究所地址 100072 北京市丰台区槐树岭四号院 (72)发明人帅志斌　贺帅　盖江涛　周广明　张颖　李耀恒　李勇　李国辉　赵欣哲　刘子剑　薛亚茹　郑阳俊　 (74)专利代理机构北京理工大学专利中心 11120 代理人廖辉　李爱英 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06N 3/08(2006.01) G01D 21/02(2006.01)G01S 19/14(2010.01) G06F 119/14(2020.01) (54)发明名称一种基于深度强化学习的车辆行驶状态估计系统及方法 (57)摘要本发明涉及车辆动力学技术领域，公开了一种基于深度强化学习的车辆行驶状态估计系统及方法，该系统的数据来源模块获取车辆行驶状态量，并将得到的第I类状态量输出给深度强化学习智能体，将第 Ⅱ类状态量输出给估计误差评价器；深度强化学习智能体接收第I类状态量，通过神经网络进行计算得到第 Ⅱ类状态量估计值，并输出给所述估计误差评价器，估计误差评价器将接收的第 Ⅱ类状态量和第 Ⅱ类状态量估计值进行比较，生成奖励值并输出给所述深度强化学习智能体；所述深度强化学习智能体根据奖励值对内部的深度神经网络参数进行调整和优化，调整对第Ⅱ类状态量估计值的计算。本发明能够对车辆上难以直接测量的行驶状态量进行估计，功能可靠也易于实现。权利要求书2页说明书9页附图6页 CN 114154231 A 2022.03.08 CN 114154231 A 1.一种基于深度强化学习的车辆行驶状态估计系统，其特征在于：该系统包括：深度强化学习智能体、估计误差评价器和数据来源模块；所述数据来源模块获取车辆行驶状态量，并将得到的第I类状态量输出给深度强化学习智能体，将第 Ⅱ类状态量输出给估计误差评价器；所述深度强化学习智能体接收所述第I类状态量，通过神经网络进行计算得到第 Ⅱ类状态量估计值，并输出给所述估计误差评价器；所述估计误差评价器将接收的第 Ⅱ类状态量和第 Ⅱ类状态量估计值进行比较，生成奖励值并输出给所述深度强化学习智能体；所述深度强化学习智能体根据所述奖励值对内部的深度神经网络参数进行调整和优化，进而调整对第 Ⅱ类状态量估计值的计算。 2.根据权利要求1所述的基于深度强化学习的车辆行驶状态估计系统，其特征在于：所述数据来源模块包括车辆动力学仿真模型、试验测试样车和量产车，所述车辆动力学仿真模型仿真结果输出第I类状态量和第 Ⅱ类状态量；通过所述试验测试样车上的传感器得到试验测试样车的第I类状态量，通过测试设备得到第 Ⅱ类状态量；通过所述量产车上的传感器得到第I类状态量，通过车载定位系统得到第 Ⅱ类状态量。 3.根据权利要求1所述的基于深度强化学习的车辆行驶状态估计系统，其特征在于：所述深度强化学习智能体包括策略函数神经网络、价值函数神经网络和比较器；所述策略函数神经网络接收数据来源模块输出的第I类状态量，计算得到第 Ⅱ类状态量估计值，并分别输出给误差评价器和价值函数神经网络；所述价值函数神经网络接收数据来源模块输出的第I类状态量和第 Ⅱ类状态量估计值，进行计算得到估算效果评价值，并输出给比较器；所述比较器将所述估计误差评价器输出的奖励值和价值函数神经网络输出的估算效果评价值进行比较，形成作用于价值函数神经网络的第一修正动作、及作用于策略函数神经网络的第二修正动作。 4.根据权利要求1所述的基于深度强化学习的车辆行驶状态估计系统，其特征在于：所述估计误差评价器生成奖励值的评价函数表达式，如公式(1)或公式(2)所示：其中，为第Ⅱ类状态量估计值， xi为第Ⅱ类状态量； k是所有待估计状态量的个数； εi 是各个待估计状态量的估计误差的权重系数， εi越大，则表示对第i个待估计状态量的估计误差的容忍度越低。 5.根据权利要求3所述的基于深度强化学习的车辆行驶状态估计系统，其特征在于：所述策略函数神经网络包括依次连接的归一化处理层、输入层、第一全连接层、第一激活函数层、循环神经网络层、第二全连接层、第二激活函数层和缩放层；所述归一化处理层接收第 I类状态量，进行归一化处理后由输入层输入，依次经过第一全连接层的线性变换、第一激活函数层的非线性计算后，输入至循环神经网络层进行模拟学习，再经过第二全连接层的线性变换、第二激活函数层的非线性计算后，由缩放层输出第 Ⅱ类状态量估计值。权　利　要　求　书 1/2 页 2 CN 114154231 A 26.根据权利要求5所述的基于深度强化学习的车辆行驶状态估计系统，其特征在于：所述价值函数神经网络包括两组归一化处理层、输入层、第一全连接层和第一激活函数层、以及加法层、循环神经网络层、第二全连接层、第二激活函数层和缩放层；两组所述归一化处理层分别接收第 Ⅰ类状态量和第 Ⅱ类状态量估计值，并分别进行归一化处理后由对应的输入层输入，分别经过第一全连接层的线性变换、第一激活函数层的非线性计算后，由加法层进行汇总后，输出给循环神经网络进行模拟学习，再经过第二全连接层的线性变换、第二激活函数层的非线性计算后，由缩放层输出估算效果评价值。 7.根据权利要求3所述的基于深度强化学习的车辆行驶状态估计系统，其特征在于：所述比较器的表达式如下：其中， Reward表示估计误差评价器输出的奖励值， J表示价值函数神经网络输出的估算效果评价值， y是比较器的输出结果。 8.一种基于权利要求1至7任一项所述的基于深度强化学习的车辆行驶状态估计系统的估计方法，其特征在于：该估计方法具体步骤包括如下：数据来源模块获取车辆行驶状态量，包括第I类状态量和第 Ⅱ类状态量；将第I类状态量分别输出给的策略函数神经网络和价值函数神经网络，将第 Ⅱ类状态量输出给误差评价器；策略函数神经网络根据所述第I类状态量，计算得到第 Ⅱ类状态量估计值，并分别输出给误差评价器和价值函数神经网络；价值函数神经网络接收所述第I类状态量和第 Ⅱ类状态量估计值，进行计算得到估算效果评价值，并将所述估算效果评价值输出给比较器；比较器将所述奖励值和估算效果评价值进行比较，形成作用于价值函数神经网络的第一修正动作、及作用于策略函数神经网络的第二修正动作，完成对策略函数神经网络和价值函数神经网络的内部参数进行调整。 9.根据权利要求8所述的基于深度强化学习的车辆行驶状态估计方法，其特征在于：所述数据来源模块获取车辆行驶状态量，具体包括：在车辆动力学模型仿真阶段，构建目标车辆的车辆动力学模型，仿真结果输出车辆动力学模型的第I类状态量和第 Ⅱ类状态量；在试验测试样车阶段，通过试验测试样车上的传感器采集得到第I类状态量，通过测试设备测试得到第Ⅱ类状态量；在量产车使用阶段，通过量产车上的传感器采集得到第 I类状态量，通过定位系统得到第Ⅱ类状态量。 10.根据权利要求9所述的基于深度强化学习的车辆行驶状态估计方法，其特征在于：所述在车辆动力学模型仿真阶段和试验测试样车阶段，分别设置奖励值的阈值，当所述第 Ⅱ类状态量估计值与第 Ⅱ类状态量经过估计误差评价器计算后，输出的奖励值大于对应的阈值时，则结束当前阶段的学习训练。权　利　要　求　书 2/2 页 3 CN 114154231 A 3

专利 一种基于深度强化学习的车辆行驶状态估计系统及方法

专利一种基于深度强化学习的车辆行驶状态估计系统及方法