金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221086434 4.1 (22)申请日 2022.07.21 (71)申请人 中创聚能科技有限公司 地址 310000 浙江省杭州市富阳区银湖街 道富闲路9号银湖创新中心7号2层256 室 (72)发明人 张玉迁 王庆国 于修和 邹春龙  (51)Int.Cl. G06F 16/22(2019.01) G06F 16/901(2019.01) G06F 16/25(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种多源异构数据的能源 优化提升方法 (57)摘要 本发明涉及数据收集与管 理技术领域, 且公 开了一种多源异构数据的能源优化提升方法, 包 括以下步骤, 第一步: 接收和构建数据湖库库库 库, 接收多源异构数据并构建本体, 第二步: 提取 导入的数据文件的内容的语义, 第三步: 根据RDF 描述并参照相关本体, 第四步: 通过查询器根据 所述索引进行查询, 本发明优化数据录入和查 询, 语义检索的复杂性与便利性的问题, 实现自 动化建立, 检索便利, 能够接收不同来源和不同 结构的数据, 并将其同构化, 大大提高了语义化 和用户体验和效率。 权利要求书1页 说明书6页 CN 115129722 A 2022.09.30 CN 115129722 A 1.一种多源异构数据的能源 优化提升方法, 其特 征在于: 包括以下步骤: 第一步: 接收和 构建数据湖库库库库, 接收多源异构数据, 通过mapper将所述多源异构 数据映射为同构数据并建立索引, 构建本体, 确认本体的属性和参数, 并进一步添加本体的 属性参数描述, 存到数据湖库 库库服务器的图数据湖库 库库中; 第二步: 提取导入的数据文件的内容的语义, 建立RDF描述, 并将建立好的RDF描述保存 到数据湖库 库库服务器的文档型 数据库中; 第三步: 根据RDF描述并参照相关本体, 将RDF描述所对应的文件与本体实现语义层级 的关联, 并写入图数据库中; 第四步: 通过查询器根据所述索引进行查询。 2.根据权利要求1所述的一种 多源异构数据的能源优化提升方法, 其特征在于: 所述映 射步骤包括: 配置步骤: 对所述多源异构数据的每一类源数据配置一张map per表; 映射完成步骤: 通过映射器根据所述map per表将所述源数据映射 为table结构; 索引建立 步骤: 对所述table 结构的数据建立所述索引。 3.根据权利要求2所述的一种 多源异构数据的能源优化提升方法, 其特征在于: 所述映 射期间原始字段field会映射为相应的table字段field, 且所述原始字段field与所述 table字段field关系是一 一对应。 4.根据权利要求3所述的一种 多源异构数据的能源优化提升方法, 其特征在于: 所述映 射完成步骤还包括: 使用json数据格式维护映射关系, 将源数据字段: id、 origin_name、 origin_desc分别映射 为id、 table_name、 table_desc 。 5.根据权利要求4所述的一种 多源异构数据的能源优化提升方法, 其特征在于: 所述索 引建立步骤中, 选择table主键 字段或其 他任何唯一 值字段建立所述索引。 6.根据权利要求5所述的一种多源异构数据的能源优化提升方法, 其特征在于: 所述 RDF描述包含节点和边, 其中, 节点表示实体/资源/属性, 边表示实体和实体之间的关系以 及实体和 属性的关系。 7.根据权利要求5所述的一种 多源异构数据的能源优化提升方法, 其特征在于: 所述数 据湖库库库服务器是包含关系 型数据库、 文档型数据库、 分布式文件系统和图数据库这四 类数据库的数据存储和管理服务平台, 该平台采用分布式运算和存储架构, 集成了具有数 据存储和运算功能的各类计算机单机、 服务器和计算机集群/服务器集群, 并提供包括数据 管理、 算法开发在内的各类功能组件。 8.根据权利要求5所述的一种 多源异构数据的能源优化提升方法, 其特征在于: 所述数 据存储和管理服务平台通过日志文件和元数据文件, 对数据文件及其存储、 交换进行组织 管理, 其中, 所述日志文件包含的日志记录数据, 以键值对的形式存在, 包含对应以下内容 的字段: 当前操作的操作者名称、 操作类型、 操作时间、 操作状态、 对当前数据的描述、 当前 数据的存 储地。 9.根据权利要求5所述的一种 多源异构数据的能源优化提升方法, 其特征在于: 所述图 数据库为Neo4j或Cayley或GrapgDB其中任意一种; 所述文档型数据库为MongoDB或CouchDB 中任意一种。权 利 要 求 书 1/1 页 2 CN 115129722 A 2一种多源异构数据的能源优化提升方 法 技术领域 [0001]本发明涉及数据收集与管理技术领域, 尤其涉及 一种多源异构数据的能源优化提 升方法。 背景技术 [0002]在互联网时代, 企业对于数据的存储、 使用、 安全等方面非常重视, 很多业务展开 是基于数据驱动的, 数据就是企业的核心, 大数据环境下, 企业面临多样的数据结构: 关系 型的数据库、 文件数据、 No ‑SQL类型、 流式数据、 倒排索引; 数据源也是丰富的: 一个企业通 常会存在多个关系 型数据库; 不同部门的不同类型 的文件会存储在不同地方, 例如由于信 息系统不稳定、 入库规则复杂, 分析试验中心有5万张铸 体薄片图像, 未能及时入库; 给科研 人员使用薄片数据进行油气藏研究带来了不便。 上级部门要求将这些照片数据整理入库, 经过提取井名、 深度、 与数据库中样品批号配对、 标准化照 片名称、 剔除重复照 片、 剔除现有 数据库中已有照片、 录入照片索引信息、 上传照片文件等多个步骤; 数据整理工作繁琐、 工 作量巨大。 [0003]为此, 我们提出一种多源异构数据的能源 优化提升方法。 发明内容 [0004]本发明主要是解决上述现有技术所存在的技术问题, 提供一种多源异构数据的能 源优化提升方法。 [0005]为了实现上述目的, 本发明采用了如下技术方案, 一种多源异构数据的能源优化 提升方法, 包括以下步骤: 第一步: 接收和构建数据湖库库库库, 接收多源异构数据, 通过 mapper将所述多源异构数据映射为同构数据并建立索引, 构建本体, 确认本体的属性和参 数, 并进一 步添加本体的属性 参数描述, 存到数据湖库 库库服务器的图数据湖库 库库中; [0006]第二步: 提取导入的数据 文件的内容的语义, 建立RDF描述, 并将建立好的RDF描述 保存到数据湖库 库库服务器的文档型 数据库中; [0007]第三步: 根据RDF描述并参照相关本体, 将RDF描述所对应的文件与本体实现语义 层级的关联, 并写入图数据库中; [0008]第四步: 通过查询器根据所述索引进行查询; [0009]作为上述方案的进一 步限定, 所述映射 步骤包括: [0010]配置步骤: 对所述多源异构数据的每一类源数据配置一张map per表; [0011]映射完成步骤: 通过映射器根据所述map per表将所述源数据映射 为table结构; [0012]索引建立 步骤: 对所述table 结构的数据建立所述索引。 [0013]作为上述方案的进一步限定, 所述映射期间原始字段field会映射为相应的table 字段field, 且所述原 始字段field与所述table字段field关系是一 一对应。 [0014]作为上述方案的进一步限定, 所述映射完成步骤还包括: 使用json数据格式维护 映射关系, 将源数据字段: id、 origin_name、 origin_desc分别映射为id、 table_name、说 明 书 1/6 页 3 CN 115129722 A 3

PDF文档 专利 一种多源异构数据的能源优化提升方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多源异构数据的能源优化提升方法 第 1 页 专利 一种多源异构数据的能源优化提升方法 第 2 页 专利 一种多源异构数据的能源优化提升方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。