专利一种对于智能体的攻击策略生成方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111647667.7 (22)申请日 2021.12.3 0 (71)申请人西北工业大学地址 710072 陕西省西安市友谊西路127号 (72)发明人李扬　李向娟　冯兆文　潘泉　 (74)专利代理机构西安维赛恩专利代理事务所 (普通合伙) 61257 代理人李明全 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种对于智能体的攻击策略生成方法及装置 (57)摘要本发明公开了一种对于智能体的攻击策略生成方法及装置，获取当前时刻智能体的状态；基于攻击时间选择函数和状态计算当前时刻的攻击时间选择值；当攻击时间选择值大于第一阈值时，从攻击动作库中选择攻击动作向智能体进行攻击；本发明利用攻击时刻选择函数可以大幅度减少攻击次数，从而保证攻击的隐蔽性；利用训练好的攻击动作选择策略，选择出使累计奖励降低最多的目标动作进行目标攻击，从而保证攻击的有效性，有效减少方法的时间复杂度，从而提高攻击效率。权利要求书2页说明书10页附图1页 CN 114330661 A 2022.04.12 CN 114330661 A 1.一种对于智能体的攻击策略生成方法，其特征在于，包括以下步骤：获取当前时刻智能体的状态；基于攻击时间选择函数和所述状态计算当前时刻的攻击时间选择值；当所述攻击时间选择值大于第一阈值时，从攻击动作库中选择攻击动作向所述智能体进行攻击；其中，所述攻击时间选择函数为C(t)＝α( πmax‑πmin)+β( πmax‑πavg)， C(t)为攻击时间选择值， t表示当前时刻序数， α和β 为常量， πmax为在给定状态下输出动作概率的最大值， πmin为在给定状态下输出动作概率的最小值， πavg为在给定状态下输出动作概率的平均值。 2.如权利要求1所述的一种对于智能体的攻击策略生成方法，其特征在于，所述πmax通过计算得出，其中， st为t时刻智能体的状态， at为st对应的智能体的动作， T 是超参数， atk是t时刻智能体输出动作为 k的概率；所述 πmin通过计算得出；所述 πavg通过计算得出。 3.如权利要求1或2所述的一种对于智能体的攻击策略生成方法，其特征在于，当所述攻击时间选择值大于第一阈值之后还包括：预测向所述智能体进行攻击之后其下一时刻的动作a ′t+1；计算未向所述智能体进行攻击时其下一时刻的动作at+1；比对所述at+1和a′t+1；当所述at+1和a′t+1不同时，从攻击动作库中选择攻击动作向所述智能体进行攻击。 4.如权利要求3所述的一种对于智能体的攻击策略生成方法，其特征在于，当所述at+1 和a′t+1相同时，不向所述智能体进行攻击。 5.如权利要求4所述的一种对于智能体的攻击策略生成方法，其特征在于，从攻击动作库中选择攻击动作向所述智能体进行攻击包括：以所述智能体在攻击周期内的奖励值最小为目标从攻击动作库中选择攻击动作。 6.如权利要求5所述的一种对于智能体的攻击策略生成方法，其特征在于，所述奖励值通过以下公式计算：其中， pt为对于状态st动作a′t被选中的概率， Uadv(st)是针对智能体的攻击策略库， U (st)是智能体的策略库， γt是t时刻的折扣因子， radv(st,a′t)为所述智能体在st状态下选择攻击动作a ′t之后获得的奖励值。 7.如权利要求4 ‑6任一所述的一种对于智能体的攻击策略生成方法，其特征在于，从攻权　利　要　求　书 1/2 页 2 CN 114330661 A 2击动作库中选择攻击动作向所述智能体进行攻击之后还包括：计算攻击成功率与攻击频率的差作为第一指标；计算所述智能体被攻击后的奖励值变化度为第二指标；基于所述第一指标和所述第二指标，确定攻击策略的攻击效果值。 8.如权利要求7所述的一种对于智能体的攻击策略生成方法，其特征在于，所述攻击策略的攻击效果值通过F＝0.5×(ΔR+Δfrequency)计算得出；其中， F为攻击效果值， ΔR为第二指标， Δfrequency为第一指标。 9.一种对于智能体的攻击策略生成方法，其特征在于，包括：获取模块，用于获取当前时刻智能体的状态；计算模块，用于基于攻击时间选择函数和所述状态计算当前时刻的攻击时间选择值；攻击模块，用于当所述攻击时间选择值大于第一阈值时，从攻击动作库中选择攻击动作向所述智能体进行攻击；其中，所述攻击时间选择函数为C(t)＝α( πmax‑πmin)+β( πmax‑πavg)， C(t)为攻击时间选择值， t表示当前时刻序数， α和β 为常量， πmax为在给定状态下输出动作概率的最大值， πmin为在给定状态下输出动作概率的最小值， πavg为在给定状态下输出动作概率的平均值。 10.一种对于智能体的攻击策略生成装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1 ‑8任一项所述的一种对于智能体的攻击策略生成方法。权　利　要　求　书 2/2 页 3 CN 114330661 A 3

专利 一种对于智能体的攻击策略生成方法及装置

专利一种对于智能体的攻击策略生成方法及装置