金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111270116.3 (22)申请日 2021.10.2 9 (71)申请人 东南大学 地址 211102 江苏省南京市江宁区东 南大 学路2号 (72)发明人 蒋雁翔 王宇  (74)专利代理 机构 南京瑞弘专利商标事务所 (普通合伙) 32249 代理人 孙建朋 (51)Int.Cl. H04L 69/24(2022.01) H04L 67/10(2022.01) H04L 67/568(2022.01) G06N 20/00(2019.01) (54)发明名称 雾无线接入网中基于策略的联邦强化学习 的协作缓存方法 (57)摘要 本发明公开了一种雾无线接入网中基于策 略的联邦强化学习的协作缓存方法, 包括: 1、 初 始化缓存边缘雾网络中节点的本地缓存内容, 初 始化全局模型训练周期和模型权重参数并分发 给每个节 点的本地模型; 2、 每一个缓存节 点分享 自身的缓存内容状态信息给邻近的缓存节点和 云端服务器; 3、 根据每个时隙内接收到的用户请 求信息, 缓存节点会在本地缓存, 临近节点缓存 和云端服务器 之间做出决策应答用户请求; 4、 计 算缓存命中率和用户的内容请求延 迟; 5、 缓存节 点根据本地内容缓存状态和用户的内容请求信 息, 更新本地缓存内容和训练模型参数。 6、 对各 节点的训练模 型权重参数进行联合更新。 本发明 降低用户请求延迟, 保护用户隐私。 权利要求书3页 说明书7页 附图2页 CN 113992770 A 2022.01.28 CN 113992770 A 1.一种雾无线接入网中基于联邦深度确定性策略梯度学习协作缓存方法, 其特征在 于, 包括以下步骤: 步骤1、 根据全局内容流行度P(0), 初始化总缓存内容状态s(0), 单个训练周期步长l, 模型的总周期数T, 模型的网络参数, 包括在线Q值网络Q(s,a|θQ)的参数θQ,在线策略网络 μ (s|θμ)的参数θμ以及目标Q值网络Q ′(s,a|θQ′)的参数θQ′和目标策略网络μ ′(s|θμ′)的参数 θμ′, 其中s代表输入网络的状态参数, a代表输入 网络的动作选择参数, 此外初始化的目标Q 值网络参数θQ′等于初始化的在线Q 值网络参数θQ, 初始化的目标 策略网络参数θμ′等于θμ; 步 骤 2 、 选取 流行 度估计算法 计算时隙 t的 全 局内 容 流行 度P (t) , 其中 Pf(t)为内容 f的流行度; 各个基站作为缓存节点, 收 集用户的内容请求信息, 并基于所有基站的本地内容缓存状态集合, 做出动作选择, 获取下 一状态; 步骤3、 基于步骤2缓存节点做出的动作选择和周期内的内容流行度计算出用户的内容 平均请求延迟DF‑U(t), DF‑F‑U(t)和DC‑F‑U(t), 其中DF‑U(t)表示用户直接从本地缓存节点获取 它的请求内容所产生的请求延迟, DF‑F‑U(t)表示用户需要从邻 近的缓存节点获取它的请求 内容所产生的请求延迟, DC‑F‑U(t)表示用户需要从云端服务器获取它的请求内容所产生的 请求延迟; 步骤4、 计算 步骤3中不同内容获取 方式下该状态动作对的奖励值; 步骤5、 将转换组存入经验回放池中, 并从经验回放池中随机采样转换组用于网络参数 更新, 更新完毕后进入下个时隙; 步骤6、 一个训练周期结束后, 上传各个缓存节点的模型网络参数至云端, 并在云端生 成全局网络参数分发给 各节点, 进入下一个训练周期。 2.根据权利要求1所述的雾无线接入网中基于策略的联邦强化学习的协作缓存方法, 其特征在于, 所述 步骤2具体包括以下步骤: 步骤2.1、 在每个缓存节点中的本地在线策略网络 μ(s|θμ)根据当前的总缓存状态s(t) 生成动作选择a(t), 即a(t)= μ(s(t)|θμ)其中s(t)={s1(t),...,sn(t),...,sN(t)}, N表示 雾网络中缓存节点的总个数, sn(t)=[n1,n2,...,nc,...,nC], 为在第t个时隙, 缓存节点n的状态空间, nc表示内容c在缓存节点n中的缓存索引, F表示内容库中内容的总 个数; 步骤2.2、 若缓存节点n在时隙t收到某内容请求, 将该内容记为f, 将在时隙t该节点未 缓存的流行度最高的内容记为f ′; 该节点根据a(t)执行缓存替换动作, 将 C记为此节点的缓 存容量; 执行替换动作时有如下三类情况: 若f已缓存在该节 点, a(t)=c,c≠C+1表 示节点n 将其缓存的nc内容替换为f ′; 若f未缓存在该节点, a(t)=c,c≠C+1表示节点n将其缓存的nc 内容替换为f; a(t)=C+1表示节点 n在第t个时隙不做缓存内容的替换; 步骤2.3、 缓存节点n完成步骤2.2的缓存替换后, 更新其本地状态空间, 并且将其状态 空间中的缓存内容索引按流行度进行降序排序, 获得下一时隙t+1的状态空间sn(t+1), 综 合各节点的状态空间获取总的新状态空间s(t+1)。 3.根据权利要求2所述的雾无线接入网中基于策略的联邦强化学习的协作缓存方法, 其特征在于, 所述 步骤3具体包括以下步骤:权 利 要 求 书 1/3 页 2 CN 113992770 A 2步骤3.1、 节点n收到用户发出请求 内容f, 若内容f缓存在本地节点中, 那么本地节点直 接将内容f发送给用户, 产生 的内容请求延迟为dn1, dn1表示将内容从本地节点发送给用户 所需要的时间, 从而可以计算在时隙t本模型中所有节点的平均本地请求延迟DF‑U(t)为: 其中N表示缓存节点的个数, cf,n(t)=1表示内容f被缓存在节点 n中; 步骤3.2、 若本地节点没有缓存内容f, 而邻近的缓存节点存储了内容f, 那么用户将从 邻近的缓存节 点中去得到它的请求内容f, 产生的内容请求延迟为dn1+dn2, dn2表示两个相邻 的节点之间传输内容所需要的时间, 从而可以计算在时隙t本模型中所有节点的平均协作 请求延迟为: 步骤3.3、 若本地节点和邻近的缓存节点都没有存储内容f, 那么用户将从云端服务器 去得到请求内容f, 产生的内容请求延迟为dn1+dn3, dn3表示从云端将内容发送到缓存节 点需 要的传输时间, 从而可以计算在时隙t本模型中所有节点的平均云端请求延迟为: 步骤3.4、 计算在时隙t本模型 所有节点的总平均请求延迟为: Dtotal(t)=DF‑U(t)+DF‑F‑U(t)+DC‑F‑U(t)。 4.根据权利要求3所述的雾无线接入网中基于联邦强化学习的协作缓存方法, 其特征 在于, 步骤4具体包括以下步骤: 步骤4.1、 本地节点n收到用户发出请求内容f, 若内容f缓存在本地节点中, 则在时隙t 的动作状态对的奖励值 为: 其中λ1为奖励函数参数; 步骤4.2、 若本地节点n没有缓存内容f, 而邻近的缓存节点存储了内容f, 那么用户将从 邻近的缓存节点中去得到它的请求内容f, 则在时隙t的动作状态对的奖励值 为: 其中λ2为奖励函数参数; 步骤4.3、 若本地节点和邻近的缓存节点都没有存储内容f, 那么用户将从云端服务器 去得到请求内容f, 则在时隙t的动作状态对的奖励值 为: 其中λ3为奖励函数参数; λ1+λ2+λ3=1, λ1< λ2<< λ3。 5.根据权利要求4所述的雾无线接入网中基于联邦强化学习的协作缓存方法, 其特征 在于, 步骤5具体包括以下步骤: 步骤5.1、 每个节点将在步骤2中状态s(t), 动作a(t), 下一状态s(t+1), 步骤4中的获取 的奖励r(t)组成一个转换组, 即{s(t),a(t),r(t),s(t+1)}, 将此转换组存入各节点的经验权 利 要 求 书 2/3 页 3 CN 113992770 A 3

.PDF文档 专利 雾无线接入网中基于策略的联邦强化学习的协作缓存方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 雾无线接入网中基于策略的联邦强化学习的协作缓存方法 第 1 页 专利 雾无线接入网中基于策略的联邦强化学习的协作缓存方法 第 2 页 专利 雾无线接入网中基于策略的联邦强化学习的协作缓存方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:03:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。