专利雾无线接入网中基于策略的联邦强化学习的协作缓存方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111270116.3 (22)申请日 2021.10.2 9 (71)申请人东南大学地址 211102 江苏省南京市江宁区东南大学路2号 (72)发明人蒋雁翔　王宇　 (74)专利代理机构南京瑞弘专利商标事务所 (普通合伙) 32249 代理人孙建朋 (51)Int.Cl. H04L 69/24(2022.01) H04L 67/10(2022.01) H04L 67/568(2022.01) G06N 20/00(2019.01) (54)发明名称雾无线接入网中基于策略的联邦强化学习的协作缓存方法 (57)摘要本发明公开了一种雾无线接入网中基于策略的联邦强化学习的协作缓存方法，包括： 1、初始化缓存边缘雾网络中节点的本地缓存内容，初始化全局模型训练周期和模型权重参数并分发给每个节点的本地模型； 2、每一个缓存节点分享自身的缓存内容状态信息给邻近的缓存节点和云端服务器； 3、根据每个时隙内接收到的用户请求信息，缓存节点会在本地缓存，临近节点缓存和云端服务器之间做出决策应答用户请求； 4、计算缓存命中率和用户的内容请求延迟； 5、缓存节点根据本地内容缓存状态和用户的内容请求信息，更新本地缓存内容和训练模型参数。 6、对各节点的训练模型权重参数进行联合更新。本发明降低用户请求延迟，保护用户隐私。权利要求书3页说明书7页附图2页 CN 113992770 A 2022.01.28 CN 113992770 A 1.一种雾无线接入网中基于联邦深度确定性策略梯度学习协作缓存方法，其特征在于，包括以下步骤：步骤1、根据全局内容流行度P(0)，初始化总缓存内容状态s(0)，单个训练周期步长l，模型的总周期数T，模型的网络参数，包括在线Q值网络Q(s,a|θQ)的参数θQ,在线策略网络 μ (s|θμ)的参数θμ以及目标Q值网络Q ′(s,a|θQ′)的参数θQ′和目标策略网络μ ′(s|θμ′)的参数 θμ′，其中s代表输入网络的状态参数， a代表输入网络的动作选择参数，此外初始化的目标Q 值网络参数θQ′等于初始化的在线Q 值网络参数θQ，初始化的目标策略网络参数θμ′等于θμ；步骤 2 、选取流行度估计算法计算时隙 t的全局内容流行度P (t) ，其中 Pf(t)为内容 f的流行度；各个基站作为缓存节点，收集用户的内容请求信息，并基于所有基站的本地内容缓存状态集合，做出动作选择，获取下一状态；步骤3、基于步骤2缓存节点做出的动作选择和周期内的内容流行度计算出用户的内容平均请求延迟DF‑U(t)， DF‑F‑U(t)和DC‑F‑U(t)，其中DF‑U(t)表示用户直接从本地缓存节点获取它的请求内容所产生的请求延迟， DF‑F‑U(t)表示用户需要从邻近的缓存节点获取它的请求内容所产生的请求延迟， DC‑F‑U(t)表示用户需要从云端服务器获取它的请求内容所产生的请求延迟；步骤4、计算步骤3中不同内容获取方式下该状态动作对的奖励值；步骤5、将转换组存入经验回放池中，并从经验回放池中随机采样转换组用于网络参数更新，更新完毕后进入下个时隙；步骤6、一个训练周期结束后，上传各个缓存节点的模型网络参数至云端，并在云端生成全局网络参数分发给各节点，进入下一个训练周期。 2.根据权利要求1所述的雾无线接入网中基于策略的联邦强化学习的协作缓存方法，其特征在于，所述步骤2具体包括以下步骤：步骤2.1、在每个缓存节点中的本地在线策略网络 μ(s|θμ)根据当前的总缓存状态s(t) 生成动作选择a(t)，即a(t)＝ μ(s(t)|θμ)其中s(t)＝{s1(t),...,sn(t),...,sN(t)}， N表示雾网络中缓存节点的总个数， sn(t)＝[n1,n2,...,nc,...,nC], 为在第t个时隙，缓存节点n的状态空间， nc表示内容c在缓存节点n中的缓存索引， F表示内容库中内容的总个数；步骤2.2、若缓存节点n在时隙t收到某内容请求，将该内容记为f，将在时隙t该节点未缓存的流行度最高的内容记为f ′；该节点根据a(t)执行缓存替换动作，将 C记为此节点的缓存容量；执行替换动作时有如下三类情况：若f已缓存在该节点， a(t)＝c,c≠C+1表示节点n 将其缓存的nc内容替换为f ′；若f未缓存在该节点， a(t)＝c,c≠C+1表示节点n将其缓存的nc 内容替换为f； a(t)＝C+1表示节点 n在第t个时隙不做缓存内容的替换；步骤2.3、缓存节点n完成步骤2.2的缓存替换后，更新其本地状态空间，并且将其状态空间中的缓存内容索引按流行度进行降序排序，获得下一时隙t+1的状态空间sn(t+1)，综合各节点的状态空间获取总的新状态空间s(t+1)。 3.根据权利要求2所述的雾无线接入网中基于策略的联邦强化学习的协作缓存方法，其特征在于，所述步骤3具体包括以下步骤：权　利　要　求　书 1/3 页 2 CN 113992770 A 2步骤3.1、节点n收到用户发出请求内容f，若内容f缓存在本地节点中，那么本地节点直接将内容f发送给用户，产生的内容请求延迟为dn1， dn1表示将内容从本地节点发送给用户所需要的时间，从而可以计算在时隙t本模型中所有节点的平均本地请求延迟DF‑U(t)为：其中N表示缓存节点的个数， cf,n(t)＝1表示内容f被缓存在节点 n中；步骤3.2、若本地节点没有缓存内容f，而邻近的缓存节点存储了内容f，那么用户将从邻近的缓存节点中去得到它的请求内容f，产生的内容请求延迟为dn1+dn2， dn2表示两个相邻的节点之间传输内容所需要的时间，从而可以计算在时隙t本模型中所有节点的平均协作请求延迟为：步骤3.3、若本地节点和邻近的缓存节点都没有存储内容f，那么用户将从云端服务器去得到请求内容f，产生的内容请求延迟为dn1+dn3， dn3表示从云端将内容发送到缓存节点需要的传输时间，从而可以计算在时隙t本模型中所有节点的平均云端请求延迟为：步骤3.4、计算在时隙t本模型所有节点的总平均请求延迟为： Dtotal(t)＝DF‑U(t)+DF‑F‑U(t)+DC‑F‑U(t)。 4.根据权利要求3所述的雾无线接入网中基于联邦强化学习的协作缓存方法，其特征在于，步骤4具体包括以下步骤：步骤4.1、本地节点n收到用户发出请求内容f，若内容f缓存在本地节点中，则在时隙t 的动作状态对的奖励值为：其中λ1为奖励函数参数；步骤4.2、若本地节点n没有缓存内容f，而邻近的缓存节点存储了内容f，那么用户将从邻近的缓存节点中去得到它的请求内容f，则在时隙t的动作状态对的奖励值为：其中λ2为奖励函数参数；步骤4.3、若本地节点和邻近的缓存节点都没有存储内容f，那么用户将从云端服务器去得到请求内容f，则在时隙t的动作状态对的奖励值为：其中λ3为奖励函数参数； λ1+λ2+λ3＝1， λ1＜ λ2＜＜ λ3。 5.根据权利要求4所述的雾无线接入网中基于联邦强化学习的协作缓存方法，其特征在于，步骤5具体包括以下步骤：步骤5.1、每个节点将在步骤2中状态s(t)，动作a(t)，下一状态s(t+1)，步骤4中的获取的奖励r(t)组成一个转换组，即{s(t),a(t),r(t),s(t+1)}，将此转换组存入各节点的经验权　利　要　求　书 2/3 页 3 CN 113992770 A 3

专利 雾无线接入网中基于策略的联邦强化学习的协作缓存方法

专利雾无线接入网中基于策略的联邦强化学习的协作缓存方法