金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111647667.7 (22)申请日 2021.12.3 0 (71)申请人 西北工业大 学 地址 710072 陕西省西安市友谊西路127号 (72)发明人 李扬 李向娟 冯兆文 潘泉  (74)专利代理 机构 西安维赛恩专利代理事务所 (普通合伙) 61257 代理人 李明全 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种对于智能体的攻击策略生成方法及装 置 (57)摘要 本发明公开了一种对于智能体的攻击策略 生成方法及装置, 获取当前时刻智能体的状态; 基于攻击时间选择函数和状态计算当前时刻 的 攻击时间选择值; 当攻击时间选择值大于第一阈 值时, 从攻击动作库中选择攻击动作向智能体进 行攻击; 本发 明利用攻击时刻选择函数可以大幅 度减少攻击次数, 从而保证攻击的隐蔽性; 利用 训练好的攻击动作选择策略, 选择出使累计奖励 降低最多的目标动作进行目标攻击, 从而保证攻 击的有效性, 有效减少方法的时间复杂度, 从而 提高攻击效率。 权利要求书2页 说明书10页 附图1页 CN 114330661 A 2022.04.12 CN 114330661 A 1.一种对于智能体的攻击策略生成方法, 其特 征在于, 包括以下步骤: 获取当前时刻智能体的状态; 基于攻击时间选择函数和所述状态计算当前时刻的攻击时间选择值; 当所述攻击时间选择值大于第 一阈值时, 从攻击动作库中选择攻击动作向所述智能体 进行攻击; 其中, 所述攻击时间选择函数为C(t)=α( πmax‑πmin)+β( πmax‑πavg), C(t)为攻击时间选择 值, t表示当前时刻序数, α和β 为常量, πmax为在给定状态下输出动作概率的最大值, πmin为在 给定状态下输出动作概 率的最小值, πavg为在给定状态下输出动作概 率的平均值。 2.如权利要求1所述的一种对于智能体的攻击策略生成方法, 其特征在于, 所述πmax通 过 计算得出, 其中, st为t时刻智能体的状态, at为st对应的智能体的动作, T 是超参数, atk是t时刻智能体输出动作为 k的概率; 所述 πmin通过 计算得出; 所述 πavg通过 计算得出。 3.如权利要求1或2所述的一种对于智能体的攻击策略生成方法, 其特征在于, 当所述 攻击时间选择值大于第一阈值之后还 包括: 预测向所述智能体进行攻击之后其下一时刻的动作a ′t+1; 计算未向所述智能体进行攻击时其下一时刻的动作at+1; 比对所述at+1和a′t+1; 当所述at+1和a′t+1不同时, 从攻击动作 库中选择攻击动作向所述智能体进行攻击 。 4.如权利要求3所述的一种对于智能体的攻击策略生成方法, 其特征在于, 当所述at+1 和a′t+1相同时, 不向所述智能体进行攻击 。 5.如权利要求4所述的一种对于智能体的攻击策略生成方法, 其特征在于, 从攻击动作 库中选择攻击动作向所述智能体进行攻击包括: 以所述智能体在攻击周期内的奖励值 最小为目标从攻击动作 库中选择攻击动作。 6.如权利要求5所述的一种对于智能体的攻击策略生成方法, 其特征在于, 所述奖励值 通过以下公式计算: 其中, pt为对于状态st动作a′t被选中的概率, Uadv(st)是针对智能体的攻击策略库, U (st)是智能体的策略库, γt是t时刻的折扣因子, radv(st,a′t)为所述智能体在st状态下选择 攻击动作a ′t之后获得的奖励值。 7.如权利要求4 ‑6任一所述的一种对于智能体的攻击策略生成方法, 其特征在于, 从攻权 利 要 求 书 1/2 页 2 CN 114330661 A 2击动作库中选择攻击动作向所述智能体进行攻击之后还 包括: 计算攻击成功率与攻击频率的差作为第一指标; 计算所述智能体 被攻击后的奖励值变化度为第二指标; 基于所述第一指标和所述第二指标, 确定攻击策略的攻击效果 值。 8.如权利要求7所述的一种对于智能体的攻击策略生成方法, 其特征在于, 所述攻击策 略的攻击效果 值通过F=0.5×(ΔR+Δfrequency)计算得 出; 其中, F为 攻击效果 值, ΔR为第二指标, Δfrequency为第一指标。 9.一种对于智能体的攻击策略生成方法, 其特 征在于, 包括: 获取模块, 用于获取当前时刻智能体的状态; 计算模块, 用于基于攻击时间选择函数和所述状态计算当前时刻的攻击时间选择值; 攻击模块, 用于当所述攻击时间选择值大于第一阈值时, 从攻击动作库中选择攻击动 作向所述智能体进行攻击; 其中, 所述攻击时间选择函数为C(t)=α( πmax‑πmin)+β( πmax‑πavg), C(t)为攻击时间选择 值, t表示当前时刻序数, α和β 为常量, πmax为在给定状态下输出动作概率的最大值, πmin为在 给定状态下输出动作概 率的最小值, πavg为在给定状态下输出动作概 率的平均值。 10.一种对于智能体的攻击策略生成装置, 包括存储器、 处理器以及存储在所述存储器 中并可在所述处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述计算机程序 时实现如权利要求1 ‑8任一项所述的一种对于智能体的攻击策略生成方法。权 利 要 求 书 2/2 页 3 CN 114330661 A 3

.PDF文档 专利 一种对于智能体的攻击策略生成方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种对于智能体的攻击策略生成方法及装置 第 1 页 专利 一种对于智能体的攻击策略生成方法及装置 第 2 页 专利 一种对于智能体的攻击策略生成方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:48:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。