金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210988398.9 (22)申请日 2022.08.17 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 秦胜勇  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 吴磊 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/27(2019.01) G06F 16/22(2019.01) G06F 16/25(2019.01) G06F 3/06(2006.01) (54)发明名称 一种数据处 理方法及装置 (57)摘要 本申请公开了一种数据处理方法及装置可 应用于数据处理技术领域 或金融领域。 在执行该 方法时, 先获取数据湖中的待处理的多表关联数 据, 后将多表关联数据发送给大规模并行分析数 据仓库, 然后在大规模并行分析数据仓库的内存 中对多表关联数据进行计算, 得到计算结果, 最 后将计算结果发送至数据湖中, 以便数据湖存储 所述计算结果。 这样, 通过在大规模并行分析数 据仓库的内存中对多表关联数据进行处理, 将中 间结果存储在内存中, 没有中间结果落地到磁盘 中, 使得磁 盘I/O开销低, 降低损坏磁 盘的风险。 权利要求书3页 说明书8页 附图2页 CN 115328957 A 2022.11.11 CN 115328957 A 1.一种数据处 理方法, 其特 征在于, 所述方法包括: 获取数据湖中的待处 理的多表关联 数据; 将所述多表关联 数据发送给 大规模并行分析 数据仓库; 在所述大规模并行分析 数据仓库的内存中对多表关联 数据进行计算, 得到计算结果; 将所述计算结果发送至数据湖中, 以便所述数据湖存 储所述计算结果。 2.根据权利要求1所述的方法, 其特征在于, 所述大规模并行分析数据仓库的内存包 括: 技术缓冲层、 整合模型层、 共性加工层、 应用计算层、 应用接口层, 所述技术缓冲层用于 存储所述多表关联数据, 所述整合模型层、 所述共性加工层、 所述应用计算层和所述应用接 口层用于对所述多表关联 数据进行计算。 3.根据权利要求2所述的方法, 其特征在于, 所述在所述大规模 并行分析数据仓库的内 存中对多表关联 数据进行计算, 得到计算结果包括: 在所述数据仓库中的技 术缓冲层中对多表关联 数据进行计算, 得到第一计算结果; 将所述第一计算结果发送给所述整合模型层, 在所述整合模型层中对第 一计算结果进 行计算, 得到第二计算结果; 将所述第二计算结果发送给所述共性加工层, 在所述共性加工层中对第 二计算结果进 行计算, 得到第三计算结果; 将所述第三计算结果发送给所述应用计算层, 在所述应用计算层中对第 三计算结果进 行计算, 得到第四计算结果; 将所述第四计算结果发送给所述应用接口层, 在所述应用接口层中对第四计算结果进 行计算, 得到第五计算结果。 4.根据权利要求3所述的方法, 其特征在于, 所述将所述计算结果发送至数据湖中, 以 便所述数据湖存 储所述计算结果包括: 将所述第二计算结果发送至所述数据湖中分布式文件系统的第一目录中; 从所述第一目录中, 获取 所述第二计算结果; 将所述第二计算结果写入所述数据湖的数据表中; 将所述第三计算结果发送至所述数据湖中分布式文件系统的第二目录中; 从所述第二目录中, 获取 所述第三计算结果; 将所述第三计算结果写入所述数据湖的数据表中; 将所述第四计算结果发送至所述数据湖中分布式文件系统的第三目录中; 从所述第三目录中, 获取 所述第四计算结果; 将所述第四计算结果写入所述数据湖的数据表中; 将所述第五计算结果发送至所述数据湖中分布式文件系统的第四目录中; 从所述第四目录中, 获取 所述第五计算结果; 将所述第五计算结果写入所述数据湖的数据表中。 5.一种数据处 理装置, 其特 征在于, 所述装置包括: 第一获取模块, 用于获取 数据湖中的待处 理的多表关联 数据; 第一发送模块, 用于将所述多表关联 数据发送给 大规模并行分析 数据仓库; 计算模块, 用于在所述大规模并行分析数据仓库的内存中对多表关联数据进行计算, 得到计算结果;权 利 要 求 书 1/3 页 2 CN 115328957 A 2第二发送模块, 用于将所述计算结果发送至数据湖中, 以便所述数据湖存储所述计算 结果。 6.根据权利要求5所述的装置, 其特征在于, 所述大规模并行分析数据仓库的内存包 括: 技术缓冲层、 整合模型层、 共性加工层、 应用计算层、 应用接口层, 所述技术缓冲层用于 存储所述多表关联数据, 所述整合模型层、 所述共性加工层、 所述应用计算层和所述应用接 口层用于对所述多表关联 数据进行计算。 7.根据权利要求6所述的装置, 其特征在于, 所述计算模块包括: 第一计算子模块、 第二 计算子模块、 第三计算子模块、 第四计算子模块和第五计算子模块; 所述第一计算子模块, 用于在所述数据仓库中的技术缓冲层中对多表关联数据进行计 算, 得到第一计算结果; 所述第二计算子模块, 将所述第一计算结果发送给所述整合模型层, 在所述整合模型 层中对第一计算结果进行计算, 得到第二计算结果; 所述第三计算子模块, 将所述第二计算结果发送给所述共性加工层, 在所述共性加工 层中对第二计算结果进行计算, 得到第三计算结果; 所述第四计算子模块, 将所述第三计算结果发送给所述应用计算层, 在所述应用计算 层中对第三计算结果进行计算, 得到第四计算结果; 所述第五计算子模块, 将所述第 四计算结果发送给所述应用接口层, 在所述应用接口 层中对第四计算结果进行计算, 得到第五计算结果。 8.根据权利要求7所述的装置, 其特征在于, 所述第 二发送模块包括: 第 一发送子模块、 第一获取子模块、 第一写入子模块、 第二 发送子模块、 第二 获取子模块、 第二写入子模块、 第 三发送子模块、 第三获取子模块、 第三写入子模块、 第四发送子模块、 第四获取子模块和第 四写入子模块; 所述第一发送子模块, 用于将所述第 二计算结果发送至所述数据湖中分布式文件系统 的第一目录中; 所述第一获取子模块, 用于从所述第一目录中, 获取 所述第二计算结果; 所述第一写入子模块, 用于将所述第二计算结果写入所述数据湖的数据表中; 所述第二发送子模块, 用于将所述第 三计算结果发送至所述数据湖中分布式文件系统 的第二目录中; 所述第二获取子模块, 用于从所述第二目录中, 获取 所述第三计算结果; 所述第二写入子模块, 用于将所述第三计算结果写入所述数据湖的数据表中; 所述第三发送子模块, 用于将所述第四计算结果发送至所述数据湖中分布式文件系统 的第三目录中; 所述第三获取子模块, 用于从所述第三目录中, 获取 所述第四计算结果; 所述第三写入子模块, 用于将所述第四计算结果写入所述数据湖的数据表中; 所述第四发送子模块, 用于将所述第五计算结果发送至所述数据湖中分布式文件系统 的第四目录中; 所述第四获取子模块, 用于从所述第四目录中, 获取 所述第五计算结果; 所述第四写入子模块, 用于将所述第五计算结果写入所述数据湖的数据表中。 9.一种电子设备, 其特 征在于, 包括:权 利 要 求 书 2/3 页 3 CN 115328957 A 3

PDF文档 专利 一种数据处理方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据处理方法及装置 第 1 页 专利 一种数据处理方法及装置 第 2 页 专利 一种数据处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:59:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。