专利端边云架构和完全信息下分层联邦学习的激励方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111256017.X (22)申请日 2021.10.27 (65)同一申请的已公布的文献号申请公布号 CN 113992676 A (43)申请公布日 2022.01.28 (73)专利权人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人王晓飞　赵云凤　刘志成　仇超　 (74)专利代理机构济南光启专利代理事务所 (普通合伙) 37292 专利代理师张瑜 (51)Int.Cl. H04L 67/10(2022.01) H04L 67/1004(2022.01) G06N 20/00(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113052326 A,2021.0 6.29 CN 113037876 A,2021.0 6.25 CN 112367109 A,2021.02.12 WO 202102 2707 A1,2021.02.1 1 US 2021174257 A1,2021.0 6.10 Bo Xu等.Optimized Edge Ag gregation for Hierarc hical. 《IE EE》 .2021, 王健宗等.联邦学习算法综述. 《大数据》 .2020, 审查员洪娟 (54)发明名称端边云架构和完全信息下分层联邦学习的激励方法及系统 (57)摘要本发明公开了一种端边云架构和完全信息下分层联邦学习的激励方法及系统，包括：基于斯塔克伯格博弈建立终端设备、边缘聚合器和云服务器之间的三层博弈模型；终端设备通过边缘聚合器下载云服务器中的电力数据学习模型；基于分层联邦学习算法构建模型演化函数；利用纳什均衡求解三方的最优策略，使终端设备的效用、边缘聚合器的效用和云服务器的效用达到最大化；终端设备将基于最优策略更新后的模型发送到边缘聚合器，边缘聚合器基于最优策略对终端设备进行激励发放，并将聚合后的模型发送到云服务器，云服务器基于最优策略对边缘聚合器进行激励发放，并将模型进行再次聚合。本发明可向终端设备和边缘聚合器提供报酬，实现合理公平的收益分配。权利要求书4页说明书12页附图2页 CN 113992676 B 2022.09.06 CN 113992676 B 1.一种端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，包括如下步骤： S1，基于斯塔克伯格博弈建立终端设备、边缘聚合器和云服务器之间的三层博弈模型； S2，终端设备通过边缘聚合器下载云服务器中的电力数据学习模型； S3，基于分层联邦学习算法在终端设备、边缘聚合器和云服务器中分别构建对应的模型演化函数； S4，利用纳什均衡求解终端设备、边缘聚合器和云服务器的最优策略，使终端设备的效用、边缘聚合器的效用和云服务器的效用达到最大化；所述步骤S4包括如下步骤： S4.1，初始化初始步数k＝0、终端设备n在博弈过程中第k步的策略边缘聚合器l在博弈过程中第k 步的策略云服务器在博弈过程中第k 步的策略Pk，并设定阈值 S4.2，执行k＝k+1，根据终端设备的收益和成本计算终端设备的效用函数，以效用函数最大化为目标获取终端设备第k 步的最优策略根据最优策略调整策略 S4.3，根据边缘聚合器的收益和成本计算边缘聚合器的效用函数，以边缘聚合器的效用函数最大化为目标求解边缘聚合器第k 步的最优策略根据最优策略调整策略 S4.4，根据云服务器的收益和成本计算云服务器的效用函数，以效用函数最大化为目标求解云服务器第k步的最优策略P*，根据最优策略P*调整策略Pk； S4.5，判断如果是返回步骤S4.2，否则输出策略策略策略 Pk即为最终的纳什均衡解也即终端设备的最优策略边缘聚合器最优策略和云服务器的最优策略P*； S5，终端设备基于终端设备的最优策略更新本地的电力数据学习模型，并将更新后的电力数据学习模型发送到对应的边缘聚合器，边缘聚合器对电力数据学习模型进行聚合，并将聚合后的电力数据学习模型发送到云服务器，同时基于边缘聚合器的最优策略对终端设备进行激励发放，云服务器对电力数据学习模型进行再次聚合，并基于云服务器的最优策略对边缘聚合器进行激励发放。 2.根据权利要求1所述的端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，在步骤S3中，所述模型演化函数的演化公式为：式中， ηt表示学习率，表示Fn(ωn(t‑1))损失函数下的下降梯度， ωn (t)表示终端设备n中的第t个模型演化函数， τe表示云服务器聚合一次时边缘聚合器的模型更新数目， τw表示边缘聚合器聚合一次时终端设备的模型更新数目， Sn表示边缘聚合器 μ (n)所连接的终端设备集合， xn是终端设备n参与模型训练时所贡献数据集的数据贡献量，权　利　要　求　书 1/4 页 2 CN 113992676 B 2也即终端设备n的策略。 3.根据权利要求1所述的端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，在步骤S4.2中，所述终端设备的效用函数的计算公式为：式中， f(xn， x‑n)表示终端设备n的收益， Jnxn表示终端设备n的成本， Jn表示终端设备n参与模型训练时的单位成本，表示终端设备n的效用函数， x‑n表示属于Sn\{n}的终端设备的策略；所述终端设备n的收益f(xn， x‑n)的计算公式为： f(xn， x‑n)＝pnRμ(n)；式中， pn表示终端设备n的报酬分配比例， Rμ(n)表示终端设备n所连接的边缘聚合器 μ(n) 给予它所连接的所有终端设备的报酬；所述终端设备n的成本Jnxn采用终端设备n每一轮的训练成本表示，训练成本的计算公式为：式中， λe表示能耗的权重参数， En(xn)表示终端设备n参与模型训练时进行一次本地迭代的能耗， λt表示延迟的权重参数， τc表示云服务器的模型更新数目， τe表示云服务器聚合一次时边缘聚合器的模型更新数目， τw表示边缘聚合器聚合一次时终端设备的模型更新数目， Tn(xn)表示终端设备n参与模型训练时进行一次本地迭代的计算时间， CE表示终端设备n 收集单位数据的成本， xn是终端设备n参与模型训练时所贡献数据集χn的数据贡献量，也即终端设备n的策略。 4.根据权利要求3所述的端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，在步骤S4.2中，所述终端设备的最优策略即为以下问题的解：所述求解终端设备的最优策略的步骤为： a，证明所有终端设备子博弈纳什均衡的存在性； b，证明所有终端设备子博弈纳什均衡的唯一性； c，求解终端设备的最优策略所述终端设备的最优策略的计算公式为；式中， |S′n|为终端设备模型训练参与者的集合S ′n的基， Ji表示终端设备i参与模型训练时的单位成本， θn表示终端设备n参与模型训练时所贡献数据集χn的数据质量，权　利　要　求　书 2/4 页 3 CN 113992676 B 3

专利 端边云架构和完全信息下分层联邦学习的激励方法及系统

专利端边云架构和完全信息下分层联邦学习的激励方法及系统