(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111459013.1
(22)申请日 2021.12.02
(71)申请人 安徽大学
地址 230601 安徽省合肥市经开区九龙路
111号
申请人 安徽大学绿色产业创新研究院
(72)发明人 张顺 丁培柱 邢萍萍 崔宁宁
陈海亮 崔小娟 邹铭敏
(74)专利代理 机构 安徽省合肥新 安专利代理有
限责任公司 34101
代理人 陆丽莉 何梅生
(51)Int.Cl.
G06Q 10/04(2012.01)
G06F 21/62(2013.01)
G06N 3/00(2006.01)G06Q 50/26(2012.01)
(54)发明名称
一种基于差分隐私保护的随机森林车流预
测方法
(57)摘要
本发明公开了一种基于差分隐私保护的随
机森林车流预测方法, 包括: 1、 从交通系统中获
取车流数据集; 2、 对车流数据集进行补空值、 连
续特征离散化 以及为每棵决策树分配合理样本
等预处理工作; 3、 随机森 林训练前确定树与树之
间和每棵树之内的隐私预算、 分裂函数、 每棵树
最大深度以及总训练棵树等参数; 4、 根据前一步
确定的参数训练出全部具有差分隐私保护的回
归树; 5、 将所有差分隐私回归树组合成一个具有
差分隐私保护的随机森林; 6、 将任意一个样本输
入森林中得到一个具有差分隐私保护的预测结
果。 本发明能很好地解决隐私消耗问题、 数据安
全性问题以及准确率的问题, 从而能在隐私消耗
比较低的前提下提高车流的预测准确度。
权利要求书2页 说明书6页 附图2页
CN 114118601 A
2022.03.01
CN 114118601 A
1.一种基于 差分隐私保护的随机森林 车流预测方法, 其特 征包括以下步骤:
步骤1、 从交通系统中获取 车流数据集并进行 预处理;
步骤1.1、 对车流数据集中的空缺值进行均值填补处理, 得到预处理后的车流数据集记
为N={[X1,Y1],[X2,Y2],…,[Xi,Yi],…,[Xn,Yn]}, 其中, [Xi,Yi]表示第i个样本组; Xi表示第
i个车流样本, Yi表示第i个车流样本所对应的预测值, n表示预处理后的数据集N中车流量
样本的总数, 1≤i≤n; 令第i个车流样本Xi中的特征集合记为
表示第i个车流样本Xi中的第d个特 征; D表示车流样本中的特 征总数;
步骤1.2、 对所述第i个车流样本Xi中的特征集合
中的连续特征
进行离散化处理, 得到预处理后的特征集合
表示离散化后的
第d个特征, 且第d个特征
的离散值集合记为
则所有离散化后的特征的离散值所组成
的集合记为
步骤1.3、 令随机森林表示为(tree1,tree2,…,treet,…,treeT); treet表示第t棵树, T
表示随机森林中树的棵 数; 1≤t≤T;
将预处理后的数据集N中的n个样本组随机选取
个样本组并分配给每棵树; 其中, 第t
棵树treet的根节点分配到的样本组
步骤2、 确定随机森林中所有树训练所需要的公共参数;
步骤2.1、 令每棵树分配到的隐私预算均为εeach_tree; 令每棵树中的非叶节点和叶子节
点的总隐私预算分别为δ ×εeach_tree和(1‑δ )×εeach_tree; 则任意一个非叶结点隐私预算为
其中, hmax表示所有树的最大树高; δ表示分配比率, 且 δ∈[0,1];
步骤2.2、 令每棵树的分裂函数和打分函数均为平方误差函数
是treet的
样本组, 其中, a表示集合Φ中任意一个特征的离散值集合中的一个离散值, 且a∈Φ; 令打
分函数经过精确估计后的全局敏感度为Δf;
初始化t=1;
步骤3、 对第t棵树t reet进行训练, 得到具有差分隐私保护的回归树t ree′t:
步骤3.1、 第t棵树treet将隐私预算
分给非叶子节点, 并将隐私预算(1 ‑δ )×
εeach_tree分给叶子节点;
步骤3.2、 定义当前第t棵树t reet的高度为h, 并初始化h=1;
步骤3.3、 对于第h层中的每一个节点, 若第h层中的当前节点node的所有样本的预测值
都相同, 则将当前节点node置为叶子节点nodeleaf, 并执行步骤3.4; 否则, 使用指数机制分
别从特征集合A ′中选出最优特征Abest, 从集合Φ中选出最优特征值abest, 若对第h层中的当
前节点node的每 一个样本进行判断, 若当前样本在最优特征Abest处的离散 值小于等于abest,
则将相应样本分配到第h层中的当前节点node的左子节点nodeleft上, 否则分配到右子节点权 利 要 求 书 1/2 页
2
CN 114118601 A
2noderight上;
步骤3.4、 计算叶子节点nodeleaf中每个样本的预测值的均值, 并使用拉普拉斯噪声每个
均值进行加噪, 得到加噪后的均值;
步骤3.5、 将h+1赋值给h后, 判断h>hmax是否成立, 若成立, 则表示得到具有差分隐私保
护的回归树t ree′t; 否则, 返回步骤3.3顺序执 行;
步骤4、 将t+1赋值给t后, 判断t>T是否成立, 若成立, 则表示得到回归森林(tree ′1,
tree′2,…,tree′T); 否则, 返回步骤3顺序执 行;
步骤5、 基于回归 森林的车流预测:
步 骤 5 . 1 、将 新 的 车 流 样 本 x 输 入 到 回 归 森 林 中 ,并 得 到 预 测 值
其中,
表示新的车流样本x在第t棵
树上的预测值。权 利 要 求 书 2/2 页
3
CN 114118601 A
3
专利 一种基于差分隐私保护的随机森林车流预测方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:04:01上传分享