金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210855411.3 (22)申请日 2022.07.19 (71)申请人 中国地质大 学 (武汉) 地址 430074 湖北省武汉市洪山区鲁磨路 388号 (72)发明人 张夏林 盛必宪 李章林 翁正平  王震江 藤世磊  (74)专利代理 机构 武汉华旭知识产权事务所 42214 专利代理师 刘荣 周宗贵 (51)Int.Cl. G06F 8/20(2018.01) G06F 16/25(2019.01) G06F 16/27(2019.01) G06F 16/28(2019.01) (54)发明名称 一种基于Spark的测井数据缺失值的分布式 填补方法 (57)摘要 本发明涉及一种基于Spar k的测井数据缺失 值的分布式填补方法, 属于缺失数据填补领域领 域。 本发明提供的基于Spark的测井数据缺失值 的分布式填补方法通过以HDFS作为储存系统, 对 勘查工作中的测井数据实现分布式存储, 作为分 布式计算的信息源; 安装部署Spark集群, 并通过 Yarn作为资源管理和任务调度框架; 通过构建索 引、 标准化处理等方法对数据仓库中的测井数据 进行二次预处理; 通过分布式随机森 林和分布式 GBT模型, 对勘查工作中的测井数据的缺失值进 行预测; 通过分布式网格搜索+k折交叉验证和 Train‑Validation ‑Split方法优化分布式预测 填补模型。 本发 明能够为测井的数据缺失问题提 供一种精度更高, 时间成本更低的解决方案, 为 测井数据得进一 步研究分析与利用提供了保障。 权利要求书2页 说明书6页 附图4页 CN 115268848 A 2022.11.01 CN 115268848 A 1.一种基于Spark的测井数据缺失值的分布式填补方法, 其特征在于按如下步骤进行 操作: (1)构建储存模块: 通过在服务器中搭建MapReduce并行计算框架, 并在MapReduce并行 计算框架内部搭建Hadoop集群, 利用Hadoop集群中的HDFS组件对勘查工作中的测井数据进 行分布式存 储; 其中HDFS集群用于将数据存 储在Hiveo nSpark测井数据仓库中; (2)构建SparkonYarn集群: 通过安装部署Spark集群优化MapReduce并行计算框架, 并 通过Yarn作为资源管理和任务调度框架; (3)测井数据二次预处理: 通过构建索引和标准化处理对数据仓库中的测井数据进行 二次预处 理; (4)集成算法模型构建: 通过搭建分布式随机森林和分布式GBT模型, 对勘查工作中的 测井数据缺失值进行 预测; (5)模型参数调整: 通过搭建分布式网格搜索+k折交叉验证模型和Train ‑Validation ‑ Split算法模 型优化后的分布式预测填补 模型, 并对分布式预测填补模型的参数进 行优化, 使分布式预测填补模型的验证误差与测试的准确率均满足设计要求; (6)预测和填补测井数据缺失值: 运用优化过后的分布式预测填补模型, 根据其性能与 效率对矿产勘查中的测井数据缺失值进行分布式预测 和数据填补。 2.根据权利要求1所述的基于Spark的测井数据缺失值的分布式填补方法, 其特征在 于: 步骤(1)中按以下步骤进行操作: 1)数据传输: 对采集到的半结构化数据和非结构化数据采用Java编程的方式实现批量 数据上传, 对结构化数据, 使用Sqo op工具实现数据的抽取, 并将数据传输 至HDFS组件中; 2)数据分布式存储: 通过服务器搭建Hadoop集群, 利用HDFS组件实现数据的分布式存 储; 3)Hive数据仓库: 建立基于HiveOnSpark构建的测井数据仓库, 测井数据仓库主要由 GODS层、 GDWD层和GDWT层组成; 4)确定数据同步策略: 根据测井数据存储形式, 将同步策略分为全量表、 增量表和特殊 表; 5)Hive数据仓库的优化: 将MapReduce并行计算框架中的计算引擎替换为Sp ark集群, 利用Spark计算引擎, 提高Hive查询和分析 数据的效率。 3.根据权利要求1所述的基于Spark的测井数据缺失值的分布式填补方法, 其特征在 于: 在步骤(2)中安装部署经过Spark集群优化的MapReduce并行计算框架, 并通过Yar n作为 资源管理和 任务调度框架, 其中Spark仅实现调度任务, 用于使MapReduce并行计算框架实 现迭代和适应实时计算的目的。 4.根据权利要求1所述的基于Spark的测井数据缺失值的分布式填补方法, 其特征在 于: 步骤(3)中通过已安装并部署Spark集群进行构建索引和标准化处理, 对数据仓库中的 测井数据进行二次预处 理。 5.根据权利要求1所述的基于Spark的测井数据缺失值的分布式填补方法, 其特征在 于: 步骤(4)至少包括以下步骤: 1)利用HDFS组件分布式存 储铀矿勘查测井数据, 并作为 缺失值填补的数据源; 2)初始化SparkSession, 对铀矿勘查测井数据的非数值型属性建立索引, 并对铀矿勘权 利 要 求 书 1/2 页 2 CN 115268848 A 2查测井数据进行 标准化处理; 3)使用随机抽取数据集的方式, 将标准化处理后的铀矿勘查测井数据以8:2的比例划 分为训练数据集和 测试数据集; 4)对测井数据的输入特征标签和输出特征标签统一建立向量索引值; 将训练数据集和 测试数据集的工程特 征值转换为向量, 并完成基本的数据处 理工作; 5)分别构建分布式随机森林模型和分布式GBT模型; 对于分布式随机森林模型, 使用 Scala语言迭代式编程, 采用确定的feature向量索引和标签值, 采用模 型的fit算子训练数 据集和transform测试数据集并构建回归预测评估模型; 对于分布 式GBT模型, 转换分布 式 GBT模型的feature向量索引和标签值, 使用验证集验证模型的拟合 程度; 6)将预测模型、 预测数据、 统计值保存到 HDFS组件中; 7)使用IDEA将算法模型打包, 并部署到Spark分布式环境中。 6.根据权利要求1所述的基于Spark的测井数据缺失值的分布式填补方法, 其特征在 于: 所述步骤(5)是采用分布式网格搜索+k折交叉验证模型和Train ‑Validation ‑Split算 法模型对分布式预测填补 模型进行优化, 其中分布式网格搜索+k折交叉验证模 型适用于小 数据集, Trai n‑Validation‑Split算法模型适用于海量数据集。 7.根据权利要求1所述的基于Spark的测井数据缺失值的分布式填补方法, 其特征在 于: 所述步骤(5)按照如下步骤进行操作: 1)初始化SparkS ession; 从Hive 中读取测井数据并将其转换为DataFrame数据结构, 将 测井数据的输入特征标签和输出特征标签以对象的形式保存在DataFrame中, 并将 DataFrame中的feature转换为Vector; 2)将测井数据 组成的数据集以8:2的比例切分成trainD ata和testD ata, 将trainD ata 的Vector数据转换Vector索引数据; 3)采用迭代式编程增加超参数网格, 所述超参数网格的数据格式为{模型超参数, Array(超参数 取值)}; 4)设置预测标签值、 输出 预测标签名和评价指标; 5)对于分布式网格搜索+k折交叉验证模型, 首先构建网格搜索模型, 然后将pipline、 evaluator和网格模 型定义到分布式网格搜索+k折交叉验证模型中, 使用trainData数据集 训练得到分布式网格搜索+k 折交叉验证模型; 对于Train ‑Validation ‑Split算法模型, 首先定义Train ‑Validation ‑Split算法模 型, 然后将定义好的pipline、 evaluato定义在Train ‑Validation ‑Split算法模型中, 使用 trainData数据集训练验证优化Train ‑Validation ‑Split算法模型, 并使用testData数据 集对Trai n‑Validation‑Split算法模型进行评估; 6)采用布式网格搜索+k折交叉验证模型和Train ‑Validation ‑Split算法模型, 对分布 式预测填补模型进行优化。权 利 要 求 书 2/2 页 3 CN 115268848 A 3

PDF文档 专利 一种基于Spark的测井数据缺失值的分布式填补方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Spark的测井数据缺失值的分布式填补方法 第 1 页 专利 一种基于Spark的测井数据缺失值的分布式填补方法 第 2 页 专利 一种基于Spark的测井数据缺失值的分布式填补方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。