金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111446143.1 (22)申请日 2021.11.30 (71)申请人 北京百度网讯科技有限公司 地址 100089 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 丁建辉 陈珍  (74)专利代理 机构 北京乐知新创知识产权代理 事务所(普通 合伙) 11734 代理人 兰海叶 (51)Int.Cl. G06F 16/9537(2019.01) G06F 16/909(2019.01) G06F 16/906(2019.01) G06Q 10/04(2012.01) G06Q 50/14(2012.01) (54)发明名称 一种年龄分布预测方法、 装置、 设备以及存 储介质 (57)摘要 本公开提供了一种年龄分布预测方法、 装 置、 设备以及存储介质, 涉及计算机技术领域, 尤 其涉及大数据领域。 具体实现方案为: 获取第一 数据集和第二数据集, 第一数据集中包括分别对 应各区域的第一数据子集, 第二数据集中包括分 别对应各区域的第二数据子集; 根据第一数据集 和第二数据集构建全局比例因子和个性化比例 因子; 根据全局比例因子对待预测区域的年龄分 布进行预测, 获得第一预测结果; 根据个性化比 例因子对待预测区域的年龄分布进行预测, 获得 第二预测结果; 根据第一预测结果、 第二预测结 果和第一数据集获得最终预测结果。 权利要求书3页 说明书9页 附图3页 CN 114186143 A 2022.03.15 CN 114186143 A 1.一种年龄分布预测方法, 包括: 获取第一数据集和第 二数据集, 所述第 一数据集中包括分别对应各区域的第 一数据子 集, 所述第二数据集中包括分别对应各区域的第二数据子集; 根据所述第一数据集和第二数据集构建全局比例因子和个性 化比例因子; 根据所述全局比例因子对所述待预测区域的年龄分布进行 预测, 获得第一预测结果; 根据所述个性化比例因子对所述待预测区域的年龄分布进行预测, 获得第二预测结 果; 根据所述第一预测结果、 第二预测结果和所述第一数据集获得最终预测结果。 2.根据权利要求1所述的方法, 其中, 所述根据第 一数据集和第 二数据集构建全局比例 因子, 包括: 分别针对各区域, 获取所述第一数据集中各年龄段的第一占比{ai1, ai2,…, ain}、 以及 所述第二数据集中各年龄段的第二占比{bi1, bi2,…, bin}; 分别计算所述各区域对应的第一占比与第二占比之间的比例因子{bi1/ai1, bi2/ai2,…, bin/ain}; 其中, bin/ain表示第i个区域中第n个 年龄段的比例因子, i和n为正整数, n表示划分 的年龄段总数; 将同一年龄段对应的所有区域的比例因子求和取平均, 第j个年龄段的所述求和取平 均结果为: Pj=(b1j/a1j+b2j/a2j+…+bmj/amj)/m, 其中, m表示区域的总数, bmj/amj表示第m个区 域的第j个年龄段的比例因子; 对各个年龄段对应的所述求和取平均结果进行组合构建所述全局比例因子P={P1, P2,…, Pn}。 3.根据权利要求2所述的方法, 其中, 所述根据全局比例因子对待预测区域的年龄分布 进行预测, 获得第一预测结果, 包括: 根据所述全局比例因子训练逻辑回归 模型; 根据逻辑回归 模型对所述待测区域的年龄分布进行 预测, 获得第一预测结果。 4.根据权利要求3所述的方法, 其中, 所述 根据全局比例因子训练逻辑回归 模型, 包括: 根据所述全局比例因子初始化逻辑回归 模型中的权 重矩阵; 基于采集到的训练数据根据梯度下降策略优化所述权 重矩阵的参数; 当所述逻辑 回归模型在训练集或验证集上的预测结果收敛时, 结束对所述逻辑回归模 型的训练。 5.根据权利要求4所述的方法, 其中, 所述根据全局比例因子初始化逻辑 回归中的权重 矩阵, 包括: 将所述逻辑回归中的权 重矩阵V及偏置项c设置为0矩阵; 利用所述全局比例因子调整所述权 重矩阵V的对角线, V[i, i]=Pi。 6.根据权利要求1所述的方法, 其中, 根据 所述第一数据集和第 二数据集构建个性化比 例因子, 包括: 分别针对各区域, 获取所述第一数据集中各年龄段的第一占比{ai1, ai2,…, ain}、 以及 所述第二数据集中各年龄段的第二占比{bi1, bi2,…, bin}; 分别计算所述各区域对应的第一占比与第二占比之间的比例因子{bi1/ai1, bi2/ai2,…, bin/ain}; 其中, bin/ain表示第i个区域中第n个 年龄段的比例因子, i和n为正整数, n表示划分权 利 要 求 书 1/3 页 2 CN 114186143 A 2的年龄段总数; 根据所述第二数据集构建各区域的个性化特征(wi1, wi2,…, wik), 其中, wik表示第i个区 域的第k个 个性化特征, k表示个性 化特征总数; 根据各区域的个性化特征及对应的比例因子, 通过机器学习算法训练获得所述个性化 特征与比例因子之间的相关性, 得到比例因子预测模型; 对于无第一数据子集的新区域, 根据所述第二数据集构建所述新区域的个性化特征, 并根据所述比例因子预测模型获得 所述新区域的个性 化比例因子 。 7.根据权利要求5所述的方法, 其中, 所述根据个性化比例因子对待预测区域的年龄分 布进行预测, 获得第二预测结果, 包括: 获得所述待预测区域 的个性化比例因子(b_i1, b_i2, …, b_in), 其中, b_in表示第i个 区域的第n个比例因子; 获得相应待预测区域的第二数据子集(k_i1, k_i2, …, k_in); 计算获得相应待预测区域的年龄分布为(a_1, a_2, …, a_n), 其中, a_i=k_i*b_i/(sum (k_1*b_1+ …+k_n*b_n) ), i∈[1, n], (a_1, a_2, …, a_n)作为所述第二预测结果。 8.根据权利要求1至6任一项所述的方法, 其中, 所述根据第 一预测结果、 第 二预测结果 和第一数据集获得最终预测结果, 包括: 对所述第一预测结果result_1、 第二预测结果result_2和第一数据 集中全国人口的年 龄分布结果re sult_3进行加权 求和, 获得所述最终预测结果R=w1*result_1+w2*result_2+ w3*result_3; 其中, w1表示第一权 重, w2表示第二权 重, w3表示第三权 重。 9.根据权利要求7 所述的方法, 其中, 通过以下 方式获得 所述权重: 根据注意力机制中的全局隐特征c计算临时得分score(c, result_x)=c*tanh(Wa[c; result_x]), 其中, x∈[1, 2, 3]; 计算权重Wx=score(c, result_x)/sum(score(c, result_1)+score(c, result_2)+ score(c, result_3) )。 10.一种年龄分布预测装置, 包括: 获取单元, 用于获取第一数据集和第二数据集, 所述第一数据集中包括分别对应各区 域的第一数据子集, 所述第二数据集中包括分别对应各区域的第二数据子集; 构建单元, 用于根据 所述第一数据集和第 二数据集构建全局比例因子和个性化比例因 子; 第一预测单元, 用于根据所述全局比例因子对所述待预测区域的年龄分布进行预测, 获得第一预测结果; 第二预测单元, 用于根据所述个性化比例因子对所述待预测区域的年龄分布进行预 测, 获得第二预测结果; 最终结果获得单元, 用于根据所述第一预测结果、 第二预测结果和所述第一数据集获 得最终预测结果。 11.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处权 利 要 求 书 2/3 页 3 CN 114186143 A 3

.PDF文档 专利 一种年龄分布预测方法、装置、设备以及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种年龄分布预测方法、装置、设备以及存储介质 第 1 页 专利 一种年龄分布预测方法、装置、设备以及存储介质 第 2 页 专利 一种年龄分布预测方法、装置、设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:05:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。