(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211131463.2
(22)申请日 2022.09.15
(71)申请人 北京八分量信息科技有限公司
地址 100020 北京市朝阳区崔各庄乡东 辛
店村268号院1号楼二层204 号
(72)发明人 阮安邦 袁凯 林振民
(74)专利代理 机构 浙江千克知识产权代理有限
公司 33246
专利代理师 葛天祥
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 20/00(2019.01)
H04L 9/08(2006.01)
(54)发明名称
基于横向联邦学习的数据主成分获取方法
(57)摘要
本发明涉及信息技术领域, 具体涉及一种基
于横向联邦学习的数据主成分获取方法, 包括:
分别求本地样本数据的特征和向量; 参与方协商
生成随机 数向量; 与特征和向量相加发送给可信
协调方; 可信协调方计算均值; 参与方计算差值
和协方差矩阵; 再次生成随机数向量, 与协方差
矩阵相加发送给可信协调方; 计算全局协方差矩
阵; 求协方差矩阵的m个特征值和特征向量; 从m
个特征值中从大到小选取d个特征值及相应的特
征向量, 发送给各个参与方; 参与方将本地样本
数据投影到 特征值构成的d维空间中, 获得投影,
即为本地样 本数据的主成分。 本发 明的有益技术
效果包括: 在保护数据隐私的同时, 允许能够使
用更多来源的数据, 提高模型分析的准确度。
权利要求书2页 说明书4页 附图2页
CN 115496139 A
2022.12.20
CN 115496139 A
1.基于横向联邦学习的数据主成分获取 方法, 其特 征在于, 包括:
参与方选定可信协调方, 每个参与方Pk分别求本地样本数据X的每个特征值的和, 获得
特征和向量Wk,
nk为本地样本数据的样本数量, xk,i表示参与方Pk的第i行数
据, xk,i具有m个特 征值;
参与方协商生成随机数向量Rk, 满足∑Rk=0;
将随机数向量Rk作为噪音与本地样本数据的特征和向量Wk相加, Tk=Wk+Rk, 将Tk以及nk
发送给可信协调方;
可信协调方计算每 个特征值的均值, 将均值发送给 各个参与方;
参与方将每个样本数据的每个特征值与均值计算差值, 计算本地样本数据的协方差矩
阵Uk;
参与方协商再次生成随机数向量Rk, 将随机数向量与协方差矩阵Uk相加, Ck=Uk+Rk, 将
带有噪音的本地协方差矩阵Ck发送给可信协调方;
可信协调方计算全局协方差矩阵C=∑Ck/N, N为全部样本数据的总数量 N;
使用( λI‑C)*p=0, 求得协方差矩阵的m个特 征值和特 征向量, 其中I是m*m的单位矩阵;
从m个特征值中从大到小选取 d个特征值λi,i∈[1,d]及相应的特征向量pi,i∈[1,d], 建立λ=
( λ1, λ2,..., λd), P=(p1,p2,...,pd), 其中P是n行d列的正交矩阵, 每一列代表一个正交基,
即特征向量pi, 将 λ和P发送给 各个参与方Pk;
参与方Pk将本地样本 数据X投影到P构成的d维空间中, 获得本地样本 数据X在d维空间的
投影L, L即为本地样本数据的主成分。
2.根据权利要求1所述的基于横向联邦学习的数据主成分获取 方法, 其特 征在于,
参与方协商生成随机数向量Rk的方法包括:
对所有参与方 赋予次序: P1,P2,...,PK, K表示参与方数量;
对于每一对参与方Pk和Pj, 利用密码交换协议获取一个相同的私钥,记为ckj;
根据参与方次序约定私钥的正负属性后, 私钥ckj作为随机数向量Rk的一个元 素;
确定随机数向量Rk需要生成的元素数量, 多次执行前述步骤获得所需要数量个私钥
ckj, 组成随机数向量Rk。
3.根据权利要求2所述的基于横向联邦学习的数据主成分获取 方法, 其特 征在于,
确定随机数向量Rk需要生成的元素数量的方法为: 获取特征和向量Wk的元素数量即为
随机数向量Rk需要生成的元 素数量。
4.根据权利要求2或3所述的基于横向联邦学习的数据主成分获取 方法, 其特 征在于,
所述密码交换协议 为Diffe‑Hellman密钥交换协议。
5.根据权利要求2或3所述的基于横向联邦学习的数据主成分获取 方法, 其特 征在于,
每个参与方Pk与其他参与方配对获得多个私钥ckj, 计算rkj=PRNG(ckj), 其中PRNG()为
伪随机生成函数;
而后计算rk=‑∑j<krkj+∑k<jrkj, rk作为随机数向量Rk的一个元 素;
多次执行前述步骤获得 所需要数量个rk, 组成随机数向量Rk。
6.根据权利要求1至3任一项所述的基于横向联邦学习的数据主成分获取方法, 其特征
在于, 参与方Pk将本地样本数据X投影到P构成的d维 空间中的方法为: 计算L=Xk*P, L为n行d权 利 要 求 书 1/2 页
2
CN 115496139 A
2列的矩阵。
7.根据权利要求1至3任一项所述的基于横向联邦学习的数据主成分获取方法, 其特征
在于, 设置d的值由大至小, 获得多个本地样本数据X在d维空间的投影Ld, 计算每个投影的
协方差矩阵Ukd的秩, 秩最大的投影Ld对应的值d为推荐的主成分维度。
8.根据权利要求1至3任一项所述的基于横向联邦学习的数据主成分获取方法, 其特征
在于, 参与方将每个样本数据的每个特征值与均值
计算差值, 即令
计算协
方差矩阵
权 利 要 求 书 2/2 页
3
CN 115496139 A
3
专利 基于横向联邦学习的数据主成分获取方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:07:32上传分享