金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210949674.0 (22)申请日 2022.08.09 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市下城区潮王路 18号 (72)发明人 陈晋音 胡书隆 郑海斌 宣琦  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 邱启旺 (51)Int.Cl. H04L 9/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01) (54)发明名称 一种基于强化学习防御渗透攻击的方法及 装置、 电子设备 (57)摘要 本发明公开了一种基于强化学习防御渗透 攻击的方法及装置、 电子设备, 该方法包括: (1) 将渗透测试过程建模为马尔可夫决策过程, 其中 所述马尔可夫决策过程包括状态、 动作、 奖励值; (2)训练智能体,其中所述智能体作为渗透攻击 方, 训练目标为生成当前最优渗透攻击路径过 程; (3)将网络环境中敏感主机的价值进行符号 翻转, 并设置获得目标敏 感主机的Root 权限时渗 透攻击的回合不结束, 将渗透攻击的回合的结束 条件修改为回合中训练步数达到了预定阈值; (4)将对主机价值的修改更新到步骤(1)的奖励 值中, 利用训练好的智能体对步骤(3)中的网络 环境进行防御训练, 重复防御训练的过程直至训 练回合数达到预定阈值, 得到防御渗透攻击的策 略。 权利要求书2页 说明书9页 附图4页 CN 115473677 A 2022.12.13 CN 115473677 A 1.一种基于强化学习防御渗透攻击的方法, 其特 征在于, 包括: (1)将渗透测试过程建模为马尔可夫 决策过程, 其中所述马尔可夫决策过程包括状态、 动作、 奖励值; (2)基于深度Q网络算法训练智能体,其中所述智能体作为渗透攻击方, 训练目标为生 成当前最优渗透攻击路径过程, 其中所述当前最优渗透攻击路径过程为在当前网络环境中 智能体采用尽可能少的动作来 攻击网络环境中最大价 值的目标 敏感主机; (3)将网络环境中敏感主机的价值进行符号翻转, 并设置获得目标敏感主机的Root权 限时渗透攻击的回合不结束, 将渗透攻击的回合的结束条件修改为回合中训练步数达到了 预定阈值; (4)将步骤(3)中对主机价值的修改更新到步骤(1)的奖励值中, 利用步骤(2)中训练好 的智能体对步骤(3)中的网络环境进行防御训练, 重复防御训练的过程直至训练回合数达 到预定阈值, 得到防御渗透攻击的策略。 2.根据权利要求1所述的方法, 其特征在于, 所述状态是代理在网络环境中观察到的信 息, 包括所述网络环境中的子网、 每个子网中的主机、 每个主机的操作类型、 每个主机对应 的渗透服 务以及所述网络关节中可实现权限提升操作的进程; 所述动作指代理在目标主机上 执行的漏洞 扫描, 渗透和权限提升操作; 所述奖励值 为所述网络环境中敏感主机的价 值之和减去智能体执 行动作的成本之和。 3.根据权利要求1所述的方法, 其特 征在于, 步骤(2)包括: (2.1)将状态转换过程(状态st、 动作at、 奖励rt、 下一个状态st+1)存储在经验回放池 Buff中, 作为训练数据集; (2.2)以随机采样的形式, 从Buff中采样N个训练数据, 将N个训练数据输入DQN中, 得到 当前价值网络的预测Q值和目标价值网络的目标Q值, 以最小化损失函数为目标, 通过神经 网络的反向梯度传播来更新当前价值网络的网络参数, 其中所述损失函数为预测Q值和目 标Q值的均方差: 其中, 为目标Q值; (2.3)重复步骤(2.2), 在步骤(2.2)的重复过程 中, 每隔预定时间将 当前价值网络的网 络参数复制给目标价值网络, 以进行目标价值网络的更新, 直至回合训练结束, 得到 当前最 优渗透攻击路径过程: 4.根据权利要求1所述的方法, 其特征在于, 步骤(2)中的所述最优渗透攻击路径过程 为采用尽可能少的操作来 攻击最大价 值的目标 敏感主机: 式中, st为t时刻的状态, at为t时刻的动作, st+1为执行at后下一时刻的状态, γ为折扣 因子, R表示在当前渗透策略π 下获得的奖励。权 利 要 求 书 1/2 页 2 CN 115473677 A 25.根据权利要求1所述的方法, 其特 征在于, 步骤(3)还 包括: 将所述网络环境中主机数超过5台的子网、 目标敏感主机所在子网的前一个子网或者 目标敏感主机所在子网中的一个或多个正常主机部署为蜜 罐主机, 并将所述蜜罐主机的价 值设置为所述网络环境中的最高价值, 将渗透攻击的回合的结束 条件修改为 获得蜜罐主机 的User权限或者回合中训练步数达 到了预定阈值。 6.一种基于强化学习防御渗透攻击的方法, 其特 征在于, 包括: 建模模块, 用于将渗透测试过程建模为马尔可夫决策过程, 其中所述马尔可夫决策过 程包括状态、 动作、 奖励值; 训练模块, 用于基于深度Q网络算法训练智能体,其中所述智能体作为渗透攻击方, 训 练目标为生成当前最优渗透攻击路径过程, 其中所述当前最优渗透攻击路径 过程为在当前 网络环境中智能体采用尽可能少的动作来 攻击网络环境中最大价 值的目标 敏感主机; 网络环境修改模块, 用于将网络环境中敏感主机的价值进行符号翻转, 并设置获得目 标敏感主机的Root权限时渗透攻击的回合不结束, 将渗透攻击的回合的结束 条件修改为回 合中训练步数达 到了预定阈值; 防御训练模块, 用于将网络环境修改模块中对主机价值的修改更新到建模模块的奖励 值中, 利用训练模块中训练好的智能体对网络环境修改模块中的网络环境进行防御训练, 重复防御训练的过程 直至训练回合数达 到预定阈值, 得到防御渗透攻击的策略。 7.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储器, 用于存 储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑5任一项所述的方法。 8.一种计算机可读存储介质, 其上存储有计算机指令, 其特征在于, 该指令被处理器执 行时实现如权利要求1 ‑5中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115473677 A 3

PDF文档 专利 一种基于强化学习防御渗透攻击的方法及装置、电子设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习防御渗透攻击的方法及装置、电子设备 第 1 页 专利 一种基于强化学习防御渗透攻击的方法及装置、电子设备 第 2 页 专利 一种基于强化学习防御渗透攻击的方法及装置、电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:27:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。