金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210985684.X (22)申请日 2022.08.17 (71)申请人 博瑞得科技有限公司 地址 401121 重庆市渝北区青枫北路18号 凤凰A座7楼 2# (72)发明人 王敏 程涛木 吴亮 黄国林  何魁 毛尚全 钱玲  (74)专利代理 机构 重庆壹手知专利代理事务所 (普通合伙) 50267 专利代理师 刘军 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/27(2019.01) (54)发明名称 一种基于分布式计算的可视化流式计算平 台 (57)摘要 本发明涉及数据处理技术领域, 公开了一种 基于分布式计算的可视化流式计算平台, 包括抽 取模块、 转换模块、 加载模块和特殊处理模块; 所 述抽取模块用于采用设定的提取方式从不同的 数据源抽取数据, 并对抽取的数据进行解析和分 发; 所述转换模块用于根据所述数据处理规则对 抽取的数据进行加工和格式转换; 所述加载模块 用于将加工和格式转换完成的数据输出到目标 数据仓; 所述特殊处理模块用于对用户的特殊业 务需求进行对应的处理后输出到所述加载模块。 本发明提供的基于分布式计算的可视化流式计 算平台, 对用户的数据源进行抽取、 转换、 加载, 并依据用户的需求进行特殊处理, 将大量的流式 数据进行整合, 为企业的决策提供分析依据。 权利要求书1页 说明书6页 附图1页 CN 115470274 A 2022.12.13 CN 115470274 A 1.一种基于分布式计算的可视化流式计算平台, 其特征在于, 包括抽取模块、 转换模 块、 加载模块和特殊处 理模块; 所述抽取模块用于采用设定的提取方式从不同的数据源抽取数据, 并对抽取的数据进 行解析和分发; 其中, 所述数据源包括数据库、 kafka、 通过ftp上传的文件、 已通过流式计算 平台处理过一次或多次的数据; 所述转换模块用于接收所述抽取模块分发的解析后的数据、 用户确定的数据处理规 则, 并根据所述数据处 理规则对抽取的数据进行加工和格式转换; 所述加载模块用于将加工和格式转换完成的数据输出到目标数据仓, 其中, 所述目标 数据仓包括数据表或文件; 所述特殊处理模块用于对用户的特殊业务需求进行对应的处理后输出到所述加载模 块; 其中, 所述特殊 业务需求包括加密、 解密和脱敏。 2.根据权利要求1所述的基于分布式计算的可视化流式计算平台, 其特征在于, 所述抽 取模块对抽取的数据进行解析和分发, 解析规则包括CSV、 JSON、 XML、 压缩数据, 所述CSV为 用行列分 隔符分隔的数据, 所述 JSON为用js对象表 示一条记录, 属性名表 示字段名, 属性值 表示字段值, 所述XML用xml格式保存的记录集, 所述压缩数据为将以上类型数据压缩后的 数据,其压缩格式包括: gz,tar.gz,zip。 3.根据权利要求2所述的基于分布式计算的可视化流式计算平台, 其特征在于, 将解析 后的数据按元数据定义的表结构表示, 所述元数据定义规则和流式计算的表结构, 并按照 所述规则提取数据并分发数据到所述转换模块; 其中, 所述规则包括指定数据的解析规则, 类型转换规则, 路由规则。 4.根据权利要求3所述的基于分布式计算的可视化流式计算平台, 其特征在于, 所述按 照所述规则提取数据并分发数据到所述转换模块中, 将解析后的数据按记录流分发到所述 转换模块, 分发按轮询的方式发到多个转换程序, 或设置路由字段确保相同子分类的数据 发到同一个转换程序。 5.根据权利要求1所述的基于分布式计算的可视化流式计算平台, 其特征在于, 所述加 载模块中, 加载到目标数据仓的数据格式包括CSV、 JSON、 PARQUET、 ORC, 数据仓类型包括 HDFS、 HBASE、 HIVE、 KAF KA、 FTP(S)、 SFTP、 WEB、 本地磁 盘、 数据库、 视图。 6.根据权利要求1所述的基于分布式计算的可视化流式计算平台, 其特征在于, 还包括 ETL注册服务, 所述ETL注册服务用于实现控制流, 所述转换模块和加载模块将处理能力注 册到注册服务, 注册服务将已注 册的处理能力通知所述抽取模块 来协调数据流的处 理。 7.根据权利要求1所述的基于分布式计算的可视化流式计算平台, 其特征在于, 还包括 ETLWorker, 所述ETLWorker用于实现数据流, 以便所述抽取模块对数据抽取并按记录流发 送给对应的转换模块, 所述 转换模块对数据进行转换后加载到目标 数据仓库。 8.根据权利要求1所述的基于分布式计算的可视化流式计算平台, 其特征在于, 还包括 Yarn, 所述Yarn 为流式计算平台外的部署方式, 其利用Yarn的计算资源实现流式计算。权 利 要 求 书 1/1 页 2 CN 115470274 A 2一种基于分布式计算的可视化流式计算 平台 技术领域 [0001]本发明涉及数据处理技术领域, 特别涉及 一种基于分布式计算的可视化流式计算 平台。 背景技术 [0002]近年来, 持续推动大数据技术产业创新, 发展以数据为关键要素的数字经济, 数字 经济政策 逐步深化。 [0003]移动通讯行业经历了2G、 3G、 4G移动网络时代, 正在演进的是物联网、 5G, 每次网络 的更新都会引起数据类型、 数据量的巨大变化, 相应的数据处理技术也在不断演进。 物联 网、 5G时代, 将会有 更多的设备连入网络, 更多的应用数据需要 快速进行分析处理, 数据量 将会更大, 数据价值会更丰富, 但对数据处理技术也带来了更多的挑战, 主要包括如下几个 方面: 从数据产生、 存储、 计算分析出结果, 整个流程时延往往在几个小时, 但是要求分钟 级、 甚至秒级的应用需求越来越多; 流量飞速增长, 存储数据飞速增长, 数据中心从TB到PB 再到 EB, 传统的流处理框架撑不住如此大的流量增长; 基于流计算平台的需求需要 快速上 线, 流处理平台需要具备最少的代码开发工作, 通过配置的方式适配业 务需求的能力。 [0004]为了提高企业的用户体验, 就要增加企业服务更多用户的能力。 每一个客户都有 自己的个性化需求, 企业是不能用同一套系统来服务所有的客户。 客户量不大 的情况还好 控制, 客户一旦增多, 企业就会陷入疲于应付的境地。 要么不停地满足老客户的需求, 客户 需求总是源源不断, 企业的成本就会不断地增加, 减弱了服务市场的能力。 要么就恰恰相 反, 对于客户的需求一再拖延, 甚至拒绝, 降低了客户的满意度, 丢了客户, 只有不断地拓展 新市场才能维持公司的正常运转, 不能满足用户个性化的需求, 增加企业投入成本, 无法保 证产品的可靠性和可持续 性。 发明内容 [0005]本发明提供了一种基于分布式计算的可视化流式计算平台, 对用户的数据源进行 抽取、 转换、 加载, 并依据用户的需求进 行特殊处理, 将大量的流式数据进 行整合, 为 企业的 决策提供分析依据。 [0006]本发明提供了一种基于分布式计算的可视化流式计算平台, 包括抽 取模块、 转换 模块、 加载模块和特殊处 理模块; [0007]所述抽取模块用于采用设定的提取方式从不同的数据源抽取数据, 并对抽取的数 据进行解析和分发; 其中, 所述数据源包括数据库、 kafka、 通过ftp上传的文件、 已通过流式 计算平台处 理过一次或多次的数据; [0008]所述转换模块用于接收所述抽取模块分发的解析后的数据、 用户确定的数据处理 规则, 并根据所述数据处 理规则对抽取的数据进行加工和格式转换; [0009]所述加载模块用于将加工和格式转换完成的数据输出到目标数据仓, 其中, 所述 目标数据仓包括数据表或文件;说 明 书 1/6 页 3 CN 115470274 A 3

PDF文档 专利 一种基于分布式计算的可视化流式计算平台

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于分布式计算的可视化流式计算平台 第 1 页 专利 一种基于分布式计算的可视化流式计算平台 第 2 页 专利 一种基于分布式计算的可视化流式计算平台 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:01:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。