金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210873392.7 (22)申请日 2022.07.22 (71)申请人 湖北长江传媒数字出版有限公司 地址 430000 湖北省武汉市洪山区雄楚大 街268号出版文化城出版大厦6层 (72)发明人 张茂华 童晓雯  (74)专利代理 机构 武汉天领众智专利代理事务 所(普通合伙) 42300 专利代理师 杨建军 (51)Int.Cl. G06F 16/28(2019.01) G06F 16/2458(2019.01) G06F 16/182(2019.01) G06F 16/25(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) (54)发明名称 一种用于数据融合的数据收集处 理系统 (57)摘要 本发明公开了一种用于数据融合的数据收 集处理系统, 所述处理系统包括数据搜集、 应用 库、 数据交换与分析模块, 所述数据搜集模块搜 集来自各种运营服务系统产生的用户信息数据, 所述应用库模块满足大数据量和 高并发的检索 要求, 所述数据交换和分析模块统一在数据仓库 中对采集处理过的数据汇聚交换和分析, 部署数 据挖掘、 机器学习算法与应用, 基于海量的数据 存储, 整合离线计算与在线计算技术支持数据分 析。 该用于数据融合的数据收集处理系统, 包含 了数据采集、 解析、 特征提取以及融合等, 最终形 成了一个统一的数据中台, 解决各类用户模型和 需求模型构建和多源异构数据的融合等关键问 题, 为融合出版提供运营 管理的数据支撑 。 权利要求书2页 说明书5页 附图1页 CN 115269743 A 2022.11.01 CN 115269743 A 1.一种用于数据融合的数据收集处 理系统, 其特 征在于: 所述处理系统包括数据搜集、 应用库、 数据交换与分析模块, 搭建一个多源异构出版资 源融合系统来融合海量异构资源, 实现融合出 版数据治理; 所述数据搜集模块搜集来自各种运营服务系统产生的用户信 息、 视频、 音频、 图片和文 字数据, 数据中心可以对这些结构化、 非结构化、 半结构化的数据和分布式文件进行采集、 解析; 所述应用库模块基于应用需求特点和数据容量规模的特点, 支撑大规模部署的自动化 和运行状态的实时监控、 负载均衡, 满足大 数据量和高并发的检索要求; 所述数据交换和分析模块统一在数据仓库中对采集处理过的数据汇聚交换和分析, 部 署数据挖掘、 机器学习算法与应用, 实现灵活的面向主题的分析任务, 基于海量的数据存 储, 整合离线计算与在线计算技术, 通过不同的编程模型, 实现各种数据分析 的场景, 支持 实时计算的数据分析。 2.根据权利要求1所述的一种用于数据融合的数据收集处理系统, 其特征在于: 所述数 据搜集模块收集数据包括用户数据、 产品信息数据、 各类系统日志、 系统经营产生的数据和 用户互动行为数据。 3.根据权利要求1所述的一种用于数据融合的数据收集处理系统, 其特征在于: 所述应 用库采用海量数据并行 处理架构的数据库与分布式的文件存储、 计算相结合的数据存储和 计算技术实现对结构化、 半结构化、 非结构化数据的统一管 理和检索, 通过开放的二次开 发 接口向上层应用提供灵活的数据存取 策略支持。 4.根据权利要求1所述的一种用于数据融合的数据收集处理系统, 其特征在于: 所述应 用库包括数字出版数据和印刷出版数据, 所述数字出版数据包括用于获取不同书 籍文本的 信息采集模块、 用于对采集的信息进行合并、 去重、 删减、 整理的归整模块和用于存储信息 的存储模块, 所述印刷出版数据包括但不限于书刊亭、 图书馆和书店等出版载体对纸板印 刷的不同文本摘要进行展示的精简模块和与文本相对应的二维码纸板标签的图书实体数 据, 所述图书实体数据包括图书 书名、 国际标准书号以及图书简介中的一个或多个。 5.根据权利要求1所述的一种用于数据融合的数据收集处理系统, 其特征在于: 所述数 据交换和分析模块针对不同资源数据之 间的数据交换功能, 多源异构数据交换技术具备以 下三种数据交换方式: 支持多种格式的数据交换, 与国家数据交换的规范化格式相适应, 采 用Unicode编码; 支持基于SOA技术的松耦合的信息交换体系, 提供Web  Service接口; 合理 应用前置 机技术。 6.根据权利要求1所述的一种用于数据融合的数据收集处理系统, 其特征在于: 所述多 源异构数据的交换融合分析 具体包括以下步骤: S1、 获取用户数据、 产品信息数据、 各类系统日志、 系统经营产生的数据、 用户互动行为 数据采集的数据; S2、 对用户数据、 产品信息数据、 各类系统日志、 系统经营产生的数据、 用户互动行为数 据采用融合识别算法进 行解析, 对于处理后的数据采用CNN神经网络进 行目标信息定位、 目 标信息识别和特 征信息提取, 得到目标属性和目标 特征值等解析结果; S3、 对用户数据、 产品信息数据、 各类系统日志、 系统经营产生的数据、 用户互动行为数 据采集的数据进行大数据下 的融合分析与实时计算, 得到实时计算结果, 并存储实时计算权 利 要 求 书 1/2 页 2 CN 115269743 A 2结果; S4、 对历史数据进行离线计算, 得到离线计算结果, 将实时计算结果与离线计算结果进 行融合分析 得到数据关联关系, 得到融合后的多源异构数据。权 利 要 求 书 2/2 页 3 CN 115269743 A 3

PDF文档 专利 一种用于数据融合的数据收集处理系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于数据融合的数据收集处理系统 第 1 页 专利 一种用于数据融合的数据收集处理系统 第 2 页 专利 一种用于数据融合的数据收集处理系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:01:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。