金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111268341.3 (22)申请日 2021.10.28 (71)申请人 中国北方车辆 研究所 地址 100072 北京市丰台区槐树岭四号院 (72)发明人 帅志斌 贺帅 盖江涛 周广明  张颖 李耀恒 李勇 李国辉  赵欣哲 刘子剑 薛亚茹 郑阳俊  (74)专利代理 机构 北京理工大 学专利中心 11120 代理人 廖辉 李爱英 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06N 3/08(2006.01) G01D 21/02(2006.01)G01S 19/14(2010.01) G06F 119/14(2020.01) (54)发明名称 一种基于深度强化学习的车辆行驶状态估 计系统及方法 (57)摘要 本发明涉及车辆动力学技术领域, 公开了一 种基于深度强化学习的车辆行驶状态估计系统 及方法, 该系统的数据来源模块获取车辆行驶状 态量, 并将得到的第I类状态量输出给深度强化 学习智能体, 将第 Ⅱ类状态量输出给估计误差评 价器; 深度强化学习智能体接收第I类状态 量, 通 过神经网络进行计算得到第 Ⅱ类状态量估计值, 并输出给所述估计误差评价器, 估计误差评价器 将接收的第 Ⅱ类状态量和第 Ⅱ类状态量估计值 进行比较, 生成奖励值并输出给所述深度强化学 习智能体; 所述深度强化学习智能体根据奖励值 对内部的深度神经网络参数进行调整和优化, 调 整对第Ⅱ类状态量估计值的计算。 本发明能够对 车辆上难以直接测量的行驶状态 量进行估计, 功 能可靠也 易于实现。 权利要求书2页 说明书9页 附图6页 CN 114154231 A 2022.03.08 CN 114154231 A 1.一种基于深度强化学习的车辆行驶状态估计系统, 其特征在于: 该系统包括: 深度强 化学习智能体、 估计误差 评价器和数据来源 模块; 所述数据来源模块获取车辆行驶状态量, 并将得到的第I类状态量输出给深度强化学 习智能体, 将第 Ⅱ类状态量输出 给估计误差 评价器; 所述深度强化学习智能体接收所述第I类状态量, 通过神经网络进行计算得到第 Ⅱ类 状态量估计值, 并输出 给所述估计误差 评价器; 所述估计误差评价器将接收的第 Ⅱ类状态量和第 Ⅱ类状态量估计值进行比较, 生成奖 励值并输出给所述深度强化学习智能体; 所述深度强化学习智能体根据所述奖励值对内部 的深度神经网络参数进行调整和优化, 进 而调整对第 Ⅱ类状态量估计值的计算。 2.根据权利要求1所述的基于深度强化学习的车辆行驶状态估计系统, 其特征在于: 所 述数据来源模块包括车辆动力学仿真模型、 试验测试样车和量产车, 所述车辆动力学仿真 模型仿真结果输出第I类状态量和第 Ⅱ类状态量; 通过所述试验测试样车上 的传感器得到 试验测试样车的第I类状态量, 通过测试设备得到第 Ⅱ类状态量; 通过所述量产车上的传感 器得到第I类 状态量, 通过 车载定位系统得到第 Ⅱ类状态量。 3.根据权利要求1所述的基于深度强化学习的车辆行驶状态估计系统, 其特征在于: 所 述深度强化学习智能体包括策略函数神经网络、 价 值函数神经网络和比较 器; 所述策略函数神经网络接收数据来源模块输出的第I类状态量, 计算得到第 Ⅱ类状态 量估计值, 并分别输出 给误差评价器和价 值函数神经网络; 所述价值函数神经网络接收数据来源模块输出的第I类状态量和第 Ⅱ类状态量估计 值, 进行计算得到估算效果评价 值, 并输出 给比较器; 所述比较器将所述估计误差评价器输出的奖励值和价值函数神经网络输出的估算效 果评价值进行比较, 形成作用于价值函数神经网络的第一修正动作、 及作用于策略函数神 经网络的第二 修正动作。 4.根据权利要求1所述的基于深度强化学习的车辆行驶状态估计系统, 其特征在于: 所 述估计误差 评价器生成奖励值的评价 函数表达式, 如公式(1)或公式(2)所示: 其中, 为第Ⅱ类状态量估计值, xi为第Ⅱ类状态量; k是所有待估计状态量的个数; εi 是各个待估计状态量的估计误差的权重系数, εi越大, 则表示对第i个待估计状态量的估计 误差的容忍度越低。 5.根据权利要求3所述的基于深度强化学习的车辆行驶状态估计系统, 其特征在于: 所 述策略函数神经网络包括依次连接的归一化处理层、 输入层、 第一全连接层、 第一激活函数 层、 循环神经网络层、 第二全连接层、 第二激活函数层和缩放层; 所述归一化处理层接收第 I类状态量, 进行归一化处理后由输入层输入, 依次经过第一 全连接层的线性变换、 第一激活函数层的非线性计算后, 输入至循环神经网络层进行模拟 学习, 再经过第二全连接层的线性变换、 第二激活函数层的非线性计算后, 由缩放层输出第 Ⅱ类状态量估计值。权 利 要 求 书 1/2 页 2 CN 114154231 A 26.根据权利要求5所述的基于深度强化学习的车辆行驶状态估计系统, 其特征在于: 所 述价值函数神经网络包括两组归一化处理层、 输入层、 第一全连接层和第一激活函数层、 以 及加法层、 循环神经网络层、 第二全连接层、 第二激活函数层和缩放层; 两组所述归一化处理层分别接收第 Ⅰ类状态量和第 Ⅱ类状态量估计值, 并分别进行归 一化处理后由对应的输入层输入, 分别经过第一全连接层的线性变换、 第一激活函数层的 非线性计算后, 由加法层 进行汇总后, 输出给循环神经网络进 行模拟学习, 再经过第二全连 接层的线性变换、 第二激活函数层的非线性计算后, 由缩放层输出估算效果评价 值。 7.根据权利要求3所述的基于深度强化学习的车辆行驶状态估计系统, 其特征在于: 所 述比较器的表达式如下: 其中, Reward表示估计误差评价器输出的奖励值, J表示价值函数神经网络输出的估算 效果评价 值, y是比较 器的输出 结果。 8.一种基于权利要求1至7任一项所述的基于深度强化学习的车辆行驶状态估计系统 的估计方法, 其特 征在于: 该估计方法具体步骤 包括如下: 数据来源 模块获取 车辆行驶状态量, 包括第I类 状态量和第 Ⅱ类状态量; 将第I类状态量分别输出给的策略函数神经网络和价值函数神经网络, 将第 Ⅱ类状态 量输出给误差评价器; 策略函数神经网络根据 所述第I类状态量, 计算得到第 Ⅱ类状态量估计值, 并分别输出 给误差评价器和价 值函数神经网络; 价值函数神经网络接收所述第I类状态量和第 Ⅱ类状态量估计值, 进行计算得到估算 效果评价 值, 并将所述估算效果评价 值输出给比较器; 比较器将所述奖励值和估算效果评价值进行比较, 形成作用于价值函数神经网络的第 一修正动作、 及作用于策略函数神经网络的第二修正动作, 完成对策略函数神经网络和价 值函数神经网络的内部参数进行调整。 9.根据权利要求8所述的基于深度强化学习的车辆行驶状态估计方法, 其特征在于: 所 述数据来源 模块获取 车辆行驶状态量, 具体包括: 在车辆动力学模型仿真阶段, 构建目标车辆的车辆动力学模型, 仿真结果输出车辆动 力学模型的第I类 状态量和第 Ⅱ类状态量; 在试验测试样车阶段, 通过试验测试样车上的传感器采集得到第I类状态量, 通过测试 设备测试 得到第Ⅱ类状态量; 在量产车使用阶段, 通过量产 车上的传感器采集得到第 I类状态量, 通过定位系统得到 第Ⅱ类状态量。 10.根据权利要求9所述的基于深度强化学习的车辆行驶状态估计方法, 其特征在于: 所述在车辆动力学模型仿真阶段和试验测试样车阶段, 分别设置奖励值的阈值, 当所述第 Ⅱ类状态量估计值与第 Ⅱ类状态量经过估计误差评价器计算后, 输出的奖励值大于对应的 阈值时, 则结束当前阶段的学习训练。权 利 要 求 书 2/2 页 3 CN 114154231 A 3

.PDF文档 专利 一种基于深度强化学习的车辆行驶状态估计系统及方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习的车辆行驶状态估计系统及方法 第 1 页 专利 一种基于深度强化学习的车辆行驶状态估计系统及方法 第 2 页 专利 一种基于深度强化学习的车辆行驶状态估计系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:41:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。