专利一种基于模型的近端策略优化方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111220714.X (22)申请日 2021.10.20 (65)同一申请的已公布的文献号申请公布号 CN 113947022 A (43)申请公布日 2022.01.18 (73)专利权人哈尔滨工业大学（深圳）地址 518055 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区 (72)发明人漆舒汉　董泽宇　王轩　张加佳　刘洋　唐琳琳　夏文　李君一　蒋琳　高翠芸　 (74)专利代理机构深圳市君胜知识产权代理事务所(普通合伙) 44268 专利代理师谢松(51)Int.Cl. G06F 30/27(2020.01) G06V 20/40(2022.01) G06K 9/62(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06N 20/00(2019.01) (56)对比文件 CN 111582371 A,2020.08.25 审查员郭晓晓 (54)发明名称一种基于模型的近端策略优化方法 (57)摘要本发明公开了一种基于模型的近端策略优化方法，包括步骤：获取模拟环境，并确定所述模拟环境对应的环境模型和策略网络；基于所述策略网络与所述模拟环境，确定状态数据；其中，所述状态数据包括所述模拟环境的视频序列帧；基于所述模拟环境的视频序列帧训练所述环境模型，得到已训练的环境模型输出的预测图像；基于所述预测图像，更新所述状态数据，得到更新的状态数据；基于所述更新的状态数据，更新所述策略网络，得到更新的策略网络。融合基于模型的深度强化学习算法，提出了基于模型的近端策略优化框架，较好的解决了非完全信息博弈环境下采样利用率低的问题，在提高采样率的同时提升训练速度。权利要求书3页说明书16页附图4页 CN 113947022 B 2022.07.12 CN 113947022 B 1.一种基于模型的近端策略优化方法，其特征在于，包括步骤：获取模拟环境，并确定所述模拟环境对应的环境模型和策略网络；基于所述策略网络与所述模拟环境，确定状态数据；其中，所述状态数据包括所述模拟环境的视频序列帧；基于所述模拟环境的视频序列帧训练所述环境模型，得到已训练的环境模型输出的预测图像；基于所述预测图像，更新所述状态数据，得到更新的状态数据；基于所述更新的状态数据，更新所述策略网络，得到更新的策略网络；所述策略网络包括目标行动者网络、目标评论家网络、行动者网络和评论家网络；基于所述更新的状态数据，更新所述策略网络，得到更新的策略网络，包括：根据所述更新的状态数据中的动作信息和所述行动者网络，得到p值，并根据所述更新的状态数据中所述动作信息和所述评论家网络，得到v值；根据所述p值、所述v值以及所述更新的状态数据，确定所述策略网络的目标函数值；根据所述目标函数值，分别对所述行动者网络的模型参数和所述评论家网络的模型参数进行修正，得到更新的行动者网络和更新的评论家网络；当满足所述行动者网络的模型参数的修正次数满足预设阈值时，将所述更新的行动者网络作为目标行动者网络，并将所述更新的评论家网络作为目标评论家网络，以得到更新的策略网络。 2.根据权利要求1所述方法，其特征在于，所述环境模型为多尺度生成对抗网络模型；所述基于所述模拟环境的视频序列帧训练所述环境模型，得到已训练的环境模型输出的预测图像，包括：将所述视频序列帧中若干帧连续图像分别下采样成若干不同尺度的输入图像，并将所述视频序列帧中若干帧连续图像的下一帧图像下采样成若干不同尺度的目标图像；将所述输入图像输入所述环境模型，并通过所述环境模型输出生成图像和判别结果；根据所述目标图像、所述生成图像以及所述判别结果，对所述环境模型的模型参数进行修正，得到已训练的环境模型，并将所述生成图像作为已训练的环境模型输出的预测图像。 3.根据权利要求2所述方法，其特征在于，所述环境模型包括生成器网络和判别器网络；将所述输入图像输入所述环境模型，并通过所述环境模型输出生成图像和判别结果，包括：将所述输入图像输入所述生成器网络，通过所述生成器网络得到生成图像；将所述生成图像和所述目标图像输入所述判别器网络，通过所述判别器网络得到判别结果；根据所述目标图像、所述生成图像以及所述判别结果，对所述环境模型的模型参数进行修正，得到已训练的环境模型，包括：固定所述生成器网络，根据所述判别结果对所述判别器网络的模型参数进行修正；固定所述判别器网络，根据所述目标图像和所述生成图像对所述生成器网络的模型参数进行修正，得到已训练的环境模型。权　利　要　求　书 1/3 页 2 CN 113947022 B 24.根据权利要求3所述方法，其特征在于，所述判别器网络的损失函数为：其中，表示判别器网络的损失函数值， Dk表示第k个尺度下的判别器网络， Xk 表示第k个尺度下的输入图像， Yk表示第k个尺度下的目标图像， Gk(X)表示第k个尺度下的生成图像， N表示尺度的数量， ∑表示求和操作， Lbce(·)表示二值交叉熵损失：其中，是真实值， Yi表示预测值；所述生成器网络的损失函数为：其中，表示生成器网络的损失函数值， Lbce(·)表示二值交叉熵损失， Dk表示第k个尺度下的判别器网络， Xk表示第k个尺度下的输入图像， Gk(X)表示第k个尺度下的生成图像。 5.根据权利要求2所述方法，其特征在于，所述状态数据还包括奖励和结束信号；基于所述策略网络与所述模拟环境，确定状态数据，包括：在所述模拟环境的当前状态下，根据所述目标行动者网络得到P值，并根据所述目标评论家网络得到V值；根据所述P值，确定动作信息；根据所述动作信息和所述模拟环境，得到所述模拟环境的视频序列帧、奖励以及结束信号。 6.根据权利要求5所述方法，其特征在于，基于所述预测图像，更新所述状态数据，得到更新的状态数据，包括：根据所述预测图像、所述视频序列帧，确定更新的视频序列帧；根据所述更新的视频序列帧、所述结束信号、所述奖励、所述动作信息、所述P值以及所述V值，得到更新的状态数据。 7.根据权利要求6所述方法，其特征在于，所述策略网络的目标函数为：其中，表示策略网络的目标函数值，表示t时刻采样的平均值，表示近端策略优化算法的目标函数值， s0表示视频序列帧，表示叠加， s1表示预测图像， c1表示第一惩罚因子，表示平方差损失函数， c2表示第二惩罚因子， S[πθ](·)表示熵奖权　利　要　求　书 2/3 页 3 CN 113947022 B 3

专利 一种基于模型的近端策略优化方法

专利一种基于模型的近端策略优化方法