金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221093816 3.9 (22)申请日 2022.08.05 (71)申请人 中国平安财产保险股份有限公司 地址 518000 广东省深圳市福田区益田路 5033号平安金融中心12、 13、 38、 39、 40 层 (72)发明人 龚官岱  (74)专利代理 机构 深圳市世联合知识产权代理 有限公司 4 4385 专利代理师 刘畅 (51)Int.Cl. G06F 16/28(2019.01) G06F 16/22(2019.01) G06F 16/25(2019.01) G06F 16/242(2019.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于血缘分析的元数据管理方法、 装置、 设 备及存储介质 (57)摘要 本申请公开了一种基于血缘分析的元数据 管理方法、 装置、 设备及存储介质, 属于人工智能 技术领域。 本申请通过 获取待处理数据对应的元 数据描述, 根据元数据描述进行血缘分析, 得到 待处理数据的血缘信息, 根据血缘信息进行数据 划分, 得到血缘数据集, 将血缘数据集输入到预 先训练好的数据分类模型, 得到数据分类结果, 其中, 数据分类结果记录有各个待处理数据之间 的映射关系, 根据映射关系和元数据描述构建待 处理数据的数据地图, 根据数据地图对待处理数 据进行数据管理。 此外, 本申请还涉及区块链技 术, 待处理数据可存储于区块链中。 本申请结合 数据的血缘信息和元数据描述来对待处理数据 进行分类管理, 提高数据管理的可靠性, 进而提 升数据利用价 值。 权利要求书3页 说明书14页 附图3页 CN 115238009 A 2022.10.25 CN 115238009 A 1.一种基于血缘分析的元 数据管理方法, 其特 征在于, 包括: 从预设数据表中获取待处理数据, 以及获取各个所述待处理数据对应的元数据描述, 得到第一元 数据描述; 根据所述第 一元数据描述对所述待处理数据进行血缘分析, 得到所述待处理数据的血 缘信息; 根据所述待处 理数据的血缘信息对所述待处 理数据进行 数据划分, 得到血缘数据集; 将所述血缘数据集输入到预先训练好的数据分类模型, 得到所述待处理数据的数据分 类结果, 其中, 所述数据分类结果记录有各个所述待处 理数据之间的映射关系; 根据所述数据分类结果中各个所述待处理数据之间的映射关系和各个所述待处理数 据对应的元 数据描述构建所述待处 理数据的数据地图; 根据所述数据地图对所述待处 理数据进行 数据管理。 2.如权利要求1所述的基于血缘分析的元数据 管理方法, 其特征在于, 所述根据 所述第 一元数据描述对所述待处理数据进行血缘分析, 得到所述待处理数据的血缘信息, 具体包 括: 将携带所述第一元 数据描述的待处 理数据转 化为SQL代码的脚本文件; 从所述SQL代码的脚本文件提取得到规则化的SQL语句, 并将所述SQL语句转换成抽象 语法树; 遍历所述抽象语法树, 获取 所述抽象语法树中所有树节点的逻辑关系; 基于所有树节点的逻辑关系得到所述待处 理数据的血缘信息 。 3.如权利要求2所述的基于血缘分析的元数据 管理方法, 其特征在于, 所述树节点包括 根节点和叶子节点, 所述遍历所述抽象语法树, 获取所述抽象语法树中所有树节点的逻辑 关系, 具体包括: 从所述根节点开始向下遍历所述抽象语法树, 直至所述抽象语法树最底层的叶子节 点; 抽取所有相邻树节点之间的逻辑关系, 得到所述抽象语法树中所有树节点的逻辑关 系。 4.如权利要求1所述的基于血缘分析的元数据 管理方法, 其特征在于, 数据分类模型包 括编码层和解码层, 将所述血缘数据集输入到预先训练好的数据分类模型, 得到所述待处 理数据的数据分类结果, 具体包括: 对所述血缘数据集中的待处理数据进行特征提取和特征向量转化, 得到数据特征向 量; 通过所述数据分类模型的编码层对所述数据特 征向量进行编码, 得到数据编码向量; 对所述数据编码向量进行空间映射, 得到所述待处 理数据的空间映射结果; 通过所述数据分类模型的解码层对所述待处理数据的空间 映射结果进行解码, 得到所 述待处理数据的数据分类结果。 5.如权利要求1所述的基于血缘分析的元数据 管理方法, 其特征在于, 在所述将所述血 缘数据集输入到预先训练好的数据分类模型, 得到所述待处理数据的数据分类结果之前, 还包括: 从预设数据库中获取样本数据, 以及获取各个所述样本数据对应的元数据描述, 得到权 利 要 求 书 1/3 页 2 CN 115238009 A 2第二元数据描述; 根据所述第 二元数据描述对所述样本数据进行血缘分析, 得到所述样本数据的血缘信 息; 根据所述样本数据的血缘信息对所述样本数据的进行数据划分, 得到样本血缘数据 集; 将所述样本血缘数据集导入预设的transformer预训练模型, 其中, 所述transformer 预训练模型包括编码层和解码层; 对所述样本血缘数据集中的样本数据进行特征提取和特征向量转化, 得到样本特征向 量; 通过所述transformer预训练模型的编码层对所述样本特征向量进行编码, 得到样本 编码向量; 对所述样本编码向量进行空间映射, 得到所述样本数据的空间映射结果; 通过所述transformer预训 练模型的解码层对所述样本数据的空间映射结果进行解 码, 得到所述样本数据的数据分类结果; 基于所述样本数据的数据分类结果对所述所述transformer预训 练模型进行迭代更 新, 得到训练好的数据分类模型。 6.如权利要求5所述的基于血缘分析的元数据 管理方法, 其特征在于, 基于所述样本数 据的数据分类结果对所述所述tr ansformer预训练模型进行迭代更新, 得到训练好的数据 分类模型, 具体包括: 获取所述transformer预训练模型的损失函数; 基于所述损失函数计算所述数据分类结果和预设标准分类结果之间的相对误差, 得到 分类误差; 在所述transformer预训练模型中传递所述分类误差, 并将所述分类误差与预设误差 阈值比对; 若所述分类误差大于预设误差阈值, 则对所述transformer预训练模型进行迭代更新, 直至模型拟合, 得到训练好的数据分类模型。 7.如权利要求1至6任意一项所述的基于血缘分析的元数据管理方法, 其特征在于, 根 据所述数据分类结果中各个所述待处理数据之间的映射关系和各个所述待处理数据对应 的元数据描述构建所述待处 理数据的数据地图, 具体包括: 根据所述数据分类结果中各个所述待处 理数据之间的映射关系绘制初始数据地图; 在所述初始数据地图添加各个所述待处理数据对应的元数据描述, 形成所述待处理数 据的数据地图。 8.一种基于血缘分析的元 数据管理装置, 其特 征在于, 包括: 数据获取模块, 用于从预设数据表中获取待处理数据, 以及获取各个所述待处理数据 对应的元 数据描述, 得到第一元 数据描述; 第一分析模块, 用于根据所述第一元数据描述对所述待处理数据进行血缘分析, 得到 所述待处 理数据的血缘信息; 第一划分模块, 用于根据所述待处理数据的血缘信息对所述待处理数据进行数据划 分, 得到血缘数据集;权 利 要 求 书 2/3 页 3 CN 115238009 A 3

PDF文档 专利 基于血缘分析的元数据管理方法、装置、设备及存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于血缘分析的元数据管理方法、装置、设备及存储介质 第 1 页 专利 基于血缘分析的元数据管理方法、装置、设备及存储介质 第 2 页 专利 基于血缘分析的元数据管理方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:01:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。