金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221048283 3.0 (22)申请日 2022.05.05 (71)申请人 哈尔滨工业大 学 地址 150001 黑龙江省哈尔滨市南岗区西 大直街92号 (72)发明人 李惠 徐阳 陈家辉  (74)专利代理 机构 哈尔滨市阳光惠远知识产权 代理有限公司 2321 1 专利代理师 陈晶 (51)Int.Cl. G06F 30/13(2020.01) G06F 30/27(2020.01) G06F 119/02(2020.01) (54)发明名称 基于深度强化学习和系统可靠度的桥梁智 能维修决策方法及系统 (57)摘要 本发明公开了一种基于深度强化学习和系 统可靠度的桥梁智能维修决策方法及系统, 属于 智慧基础设施技术领域, 其中, 该方法包括: 构建 整体桥面板冗余系统模型, 并将其分解为一系列 小规模局部桥面板, 基于局部桥面板的失效概率 和冗余系统可靠度理论, 计算整体桥面板系统的 可靠概率和可靠度指标; 根据可靠度指标设计基 于维修成本和安全成本的综合奖励函数, 以建立 基于深度强化学习的整体桥面板维修决策网络 模型; 训练基于深度强化学习的整体桥面板维修 决策网络模 型直至收敛, 将桥面板系统可靠度指 标、 局部可靠度指标和服役时间输入至训练好的 模型中, 得到桥梁维修动作结果, 即实现了基于 深度强化学习的桥梁智能维修决策。 权利要求书2页 说明书10页 附图3页 CN 115098906 A 2022.09.23 CN 115098906 A 1.一种基于深度强化学习和系统可靠度的桥梁智能维修决策方法, 其特征在于, 包括 以下步骤: 步骤S1, 构建整体桥面板冗余系统模型, 并将其分解为一系列小规模局部桥面板, 基于 局部桥面板的失效概率和冗余系统可靠度理论, 计算整体桥面板系统的可靠概率和可靠度 指标; 步骤S2, 根据所述可靠度指标设计基于维修成本和安全成本的综合奖励函数, 以建立 基于深度强化学习的整体桥 面板维修决策网络模型; 步骤S3, 训练所述基于深度强化学习的整体桥面板维修决策网络模型直至收敛, 将桥 面板系统可靠度指标、 局部可靠度指标和服役时间输入至训练好的基于深度强化学习的整 体桥面板维修决策网络模型中, 得到桥梁维修动作结果。 2.根据权利要求1所述的基于深度强化学习和系统可靠度的桥梁智能维修决策方法, 其特征在于, 所述 步骤S1具体包括: 步骤S101, 建立所述整体桥面板冗余系统模型, 并将其分解为所述一系列小规模局部 桥面板; 步骤S102, 基于所述并将其分解为一系列小规模局部桥面板设计整体桥面板的系统失 效准则; 步骤S103, 根据所述系统失效准则构建系统状态空间; 步骤S104, 根据所述系统状态空间计算系统状态转移概 率矩阵; 步骤S105, 根据所述系统状态空间计算整体桥 面板系统的可靠概 率和可靠度指标。 3.根据权利要求2所述的基于深度强化学习和系统可靠度的桥梁智能维修决策方法, 其特征在于, 所述系统失效准则为由n行m列个单元组成的二 维规则系统中, 若存在连续的r 行s列的单 元中存在k个及以上 单元失效, 则系统失效。 4.根据权利要求2所述的基于深度强化学习和系统可靠度的桥梁智能维修决策方法, 其特征在于, 所述系统状态空间为: 其中, [ λij]n×(s‑1)为由n行(s ‑1)列的局部桥面板组成的子系统, λij为第i行第j列个局部 桥面板的状态, λij∈{0,1}, 0表示局部桥面板安全, 1表示局部桥面板失效, S为子系统的安 全状态集 合, 第i个元 素记为Si, F为子系统的失效状态集 合。 5.根据权利要求2所述的基于深度强化学习和系统可靠度的桥梁智能维修决策方法, 其特征在于, 所述系统状态转移概 率矩阵为: 其中, T为系统状态转移概率矩阵, N为系统安全状态之间的转移概率矩阵, 维度为ds× ds, Ni,j为S中第i个状态向第j个状态转移的概率; C为系统安全状态向失效状态转移概率矩 阵, 维度为ds×1; Ci,1为S中第i个状态向失效状态转移的概率; 0为由0元素组成的矩阵, 维 度为1×ds, 表示失效状态不能向安全状态转移; 1为失效状态只能向失效状态转移。 6.根据权利要求1所述的基于深度强化学习和系统可靠度的桥梁智能维修决策方法,权 利 要 求 书 1/2 页 2 CN 115098906 A 2其特征在于, 所述 步骤S2具体包括: 步骤S201, 定义桥面板系统状态, 包括局部桥面板的可靠度矩阵、 可靠度指标和服役时 间; 步骤S202, 预设局部桥面板的维修优先级与其局部可靠度指标成反比, 将维修动作简 化为维修局部桥 面板的数量, 以定义 桥面板系统维修动作空间; 步骤S203, 基于所述桥面板系统维修动作空间定义同时考虑维修成本和安全成本的综 合奖励函数; 步骤S204, 根据所述桥面板系统状态和所述综合奖励函数建立所述基于深度强化学习 的整体桥 面板维修决策网络模型。 7.根据权利要求6所述的基于深度强化学习和系统可靠度的桥梁智能维修决策方法, 其特征在于, 所述 桥面板系统维修动作空间为: A=[0:p:max(th),n ×m],0≤th≤n×m,thmodp=0 其中, mod为取余运算, max(th)为能被p整除的、 不超过n ×m的最大正整数, n ×m为局部 桥面板个数。 8.根据权利要求1所述的基于深度强化学习和系统可靠度的桥梁智能维修决策方法, 其特征在于, 所述综合奖励函数为: Reward=Cm+Cs Cm=‑acost‑Csetup Cs=‑Φ(‑βsys)*Csys‑( βT‑βsys)*F 其中, Reward为综合奖励函数, Cm为维修成本, Cs为安全成本, acost为维修动作对应成 本, acost>0与维修单元数成正比, Csetup为维修启动成本, βsys为整体桥面板的系统可靠度指 标, Φ(‑βsys)为整体桥面板的系统失效概率, Csys为整体桥面板的系统失效成本, βT为整体 桥面板的系统目标 可靠度指标, F为 惩罚系数。 9.一种基于深度强化学习和系统可靠度的桥梁智能维修决策系统, 其特 征在于, 包括: 计算模块, 用于构建整体桥面板冗余系统模型, 并将其分解为一系列小规模局部桥面 板, 基于局部桥面板的失效概率和冗余系统可靠度 理论, 计算整体桥面板系统的可靠概率 和可靠度指标; 构建模块, 用于根据所述可靠度指标设计基于维修成本和安全成本的综合奖励函数, 以建立基于深度强化学习的整体桥 面板维修决策网络模型; 训练和输出模块, 用于训练所述基于深度强化学习的整体桥面板维修决策网络模型直 至收敛, 将桥面板系统可靠度指标、 局部可靠度指标和服役时间输入至训练好的基于深度 强化学习的整体桥 面板维修决策网络模型中, 得到桥梁维修动作结果。 10.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1 ‑8中任一项所述方法的步骤。 11.一种非临时性计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计 算机程序被处 理器执行时实现权利要求1 ‑8中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115098906 A 3

.PDF文档 专利 基于深度强化学习和系统可靠度的桥梁智能维修决策方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习和系统可靠度的桥梁智能维修决策方法及系统 第 1 页 专利 基于深度强化学习和系统可靠度的桥梁智能维修决策方法及系统 第 2 页 专利 基于深度强化学习和系统可靠度的桥梁智能维修决策方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:30:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。