金融行业标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111220714.X (22)申请日 2021.10.20 (65)同一申请的已公布的文献号 申请公布号 CN 113947022 A (43)申请公布日 2022.01.18 (73)专利权人 哈尔滨工业大 学 (深圳) 地址 518055 广东省深圳市南 山区桃源街 道深圳大 学城哈尔滨工业大 学校区 (72)发明人 漆舒汉 董泽宇 王轩 张加佳  刘洋 唐琳琳 夏文 李君一  蒋琳 高翠芸  (74)专利代理 机构 深圳市君胜知识产权代理事 务所(普通 合伙) 44268 专利代理师 谢松(51)Int.Cl. G06F 30/27(2020.01) G06V 20/40(2022.01) G06K 9/62(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06N 20/00(2019.01) (56)对比文件 CN 111582371 A,2020.08.25 审查员 郭晓晓 (54)发明名称 一种基于模型的近端策略优化方法 (57)摘要 本发明公开了一种基于模型的近端策略优 化方法, 包括步骤: 获取模拟环境, 并确定 所述模 拟环境对应的环境模型和策略网络; 基于所述策 略网络与所述模拟环境, 确定状态数据; 其中, 所 述状态数据包括所述模拟环境的视频序列帧; 基 于所述模拟环境的视频序列帧训练所述环境模 型, 得到已训练的环境模型输出的预测图像; 基 于所述预测图像, 更新所述状态数据, 得到更新 的状态数据; 基于所述更新的状态数据, 更新所 述策略网络, 得到更新的策略网络。 融合基于模 型的深度强化学习算法, 提出了基于模型的近端 策略优化框架, 较好的解决了非完全信息博弈环 境下采样利用率低的问题, 在提高采样率的同时 提升训练速度。 权利要求书3页 说明书16页 附图4页 CN 113947022 B 2022.07.12 CN 113947022 B 1.一种基于模型的近端策略优化方法, 其特 征在于, 包括 步骤: 获取模拟环境, 并确定所述模拟环境对应的环境模型和策略网络; 基于所述策略网络与所述模拟环境, 确定状态数据; 其中, 所述状态数据包括所述模拟 环境的视频序列帧; 基于所述模拟环境的视频序列帧训练所述环境模型, 得到已训练 的环境模型输出的预 测图像; 基于所述预测图像, 更新所述状态数据, 得到更新的状态数据; 基于所述更新的状态数据, 更新所述策略网络, 得到更新的策略网络; 所述策略网络包括目标 行动者网络、 目标评论家网络、 行动者网络和评论家网络; 基于所述更新的状态数据, 更新所述策略网络, 得到更新的策略网络, 包括: 根据所述更新的状态数据中的动作信 息和所述行动者网络, 得到p值, 并根据所述更新 的状态数据中所述动作信息和所述评论家网络, 得到v值; 根据所述p值、 所述v值以及所述更新的状态数据, 确定所述策略网络的目标函数值; 根据所述目标函数值, 分别对所述行动 者网络的模型参数和所述评论家网络的模型参 数进行修 正, 得到更新的行动者网络和更新的评论家网络; 当满足所述行动 者网络的模型参数的修正 次数满足预设阈值 时, 将所述更新的行动者 网络作为 目标行动者网络, 并将所述更新的评论家网络作为 目标评论家网络, 以得到更新 的策略网络 。 2.根据权利要求1所述方法, 其特 征在于, 所述环境模型为多尺度生成对抗网络模型; 所述基于所述模拟环境的视频序列帧训练所述环境模型, 得到已训练 的环境模型输出 的预测图像, 包括: 将所述视频序列帧中若干帧连续图像分别下采样成若干不同尺度的输入图像, 并将所 述视频序列帧中若干帧连续图像的下一帧图像下采样成若干不同尺度的目标图像; 将所述输入图像输入所述环境模型, 并通过 所述环境模型输出生成图像和判别结果; 根据所述目标图像、 所述生成图像以及所述判别结果, 对所述环境模型的模型参数进 行修正, 得到已训练的环境模型, 并将所述生成图像作为已训练的环境模型输出 的预测图 像。 3.根据权利要求2所述方法, 其特征在于, 所述环境模型包括生成器网络和判别器网 络; 将所述输入图像输入所述环境模型, 并通过所述环境模型输出生成图像和判别结果, 包括: 将所述输入图像输入所述 生成器网络, 通过 所述生成器网络得到生成图像; 将所述生成图像和所述目标图像输入所述判别器网络, 通过所述判别器网络得到判别 结果; 根据所述目标图像、 所述生成图像以及所述判别结果, 对所述环境模型的模型参数进 行修正, 得到已训练的环境模型, 包括: 固定所述 生成器网络, 根据所述判别结果对所述判别器网络的模型参数进行修 正; 固定所述判别器网络, 根据 所述目标图像和所述生成图像对所述生成器网络的模型参 数进行修 正, 得到已训练的环境模型。权 利 要 求 书 1/3 页 2 CN 113947022 B 24.根据权利要求3所述方法, 其特 征在于, 所述判别器网络的损失函数为: 其中, 表示判别器网络 的损失函数值, Dk表示第k个尺度下的判别器网络, Xk 表示第k个尺度下的输入图像, Yk表示第k个尺度下的目标图像, Gk(X)表示第k个尺度下的生 成图像, N表示尺度的数量, ∑表示 求和操作, Lbce(·)表示二值交叉熵损失: 其中, 是真实值, Yi表示预测值; 所述生成器网络的损失函数为: 其中, 表示生成器网络的损失函数值, Lbce(·)表示二值交叉熵损失, Dk表示 第k个尺度下的判别器网络, Xk表示第k个尺度下的输入图像, Gk(X)表示第k个尺度下的生成 图像。 5.根据权利要求2所述方法, 其特 征在于, 所述状态数据还 包括奖励和结束信号; 基于所述策略网络与所述模拟环境, 确定状态数据, 包括: 在所述模拟环境的当前状态下, 根据所述目标行动者网络得到P值, 并根据所述目标评 论家网络得到V值; 根据所述P值, 确定动作信息; 根据所述动作信息和所述模拟环境, 得到所述模拟环境的视频序列帧、 奖励以及结束 信号。 6.根据权利要求5所述方法, 其特征在于, 基于所述预测图像, 更新所述状态数据, 得到 更新的状态数据, 包括: 根据所述预测图像、 所述视频序列帧, 确定更新的视频序列帧; 根据所述更新的视频序列帧、 所述结束信号、 所述奖励、 所述动作信息、 所述P值以及所 述V值, 得到更新的状态数据。 7.根据权利要求6所述方法, 其特 征在于, 所述策略网络的目标函数为: 其中, 表示策略网络的目标函数值, 表示t时刻采样的平均值, 表 示近端策略优化算法的目标函数值, s0表示视频序列帧, 表示叠加, s1表示预测图像, c1表 示第一惩罚因子, 表示平方差损失函数, c2表示第二惩罚因子, S[πθ](·)表示熵奖权 利 要 求 书 2/3 页 3 CN 113947022 B 3

.PDF文档 专利 一种基于模型的近端策略优化方法

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于模型的近端策略优化方法 第 1 页 专利 一种基于模型的近端策略优化方法 第 2 页 专利 一种基于模型的近端策略优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:41:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。