金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210841925.3 (22)申请日 2022.07.18 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 (72)发明人 赵文怡 朱芳鹏  (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 专利代理师 黄海英 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/215(2019.01) (54)发明名称 数据提取方法、 装置、 处 理器及电子设备 (57)摘要 本申请公开了一种数据提取方法、 装置、 处 理器及电子设备。 涉及大数据领域及其他领域, 该方法包括: 从结构化数据库中获取结构化数 据, 得到多个第一数据; 从文档中获取结构化数 据, 得到多个第二数据, 其中, 文档为非结构化文 档; 将第一数据和第二数据作为初始数据, 根据 关联字段建立所有初始数据之间的预设关联关 系, 并根据初始数据建立目标数据库; 确定第一 目标字段和第二目标字段, 通过预设关联关系、 第一目标字段和第二目标字段在目标数据库中 提取目标数据。 通过本申请, 解决了相关技术中 数据源中既有结构化数据又有非结构化数据, 由 于无法对非结构化的数据进行检索, 从而难以直 接从数据源中提取出所有需要提取的数据的问 题。 权利要求书2页 说明书9页 附图3页 CN 115033635 A 2022.09.09 CN 115033635 A 1.一种数据提取 方法, 其特 征在于, 包括: 从结构化数据库中获取结构化数据, 得到多个第 一数据, 其中, 所述结构化数据库用于 存储结构化数据; 从文档中获取 结构化数据, 得到多个第二数据, 其中, 所述文档为非结构化文档; 将所述第一数据和所述第 二数据作为初始数据, 根据关联字段建立所有所述初始数据 之间的预设 关联关系, 并根据所述初始数据建立目标 数据库; 确定第一目标字段和第二目标字段, 通过所述预设关联关系、 所述第一目标字段和所 述第二目标字段在所述目标 数据库中提取目标 数据。 2.根据权利要求1所述的方法, 其特征在于, 据关联字段建立所有所述初始数据之间的 预设关联关系包括: 建立存在相同字段的各对所述初始数据之间的关联关系, 得到多个所述关联关系, 并 将多个所述关联关系组合 为所述预设 关联关系。 3.根据权利要求1所述的方法, 其特征在于, 通过所述预设关联关系、 所述第一目标字 段和所述第二目标字段在所述目标 数据库中提取目标 数据包括: 遍历所述目标数据库, 确定存在所述第一目标字段的所述初始数据, 得到第一初始数 据, 并确定存在所述第二目标字段的所述初始数据, 得到第二初始数据; 将所述第一初始数据确定为 起始节点, 将所述第二初始数据确定为结束节点, 通过所述预设关联关系确定所有从所述起始节点到所述结束节点的路径, 得到多条路 径, 其中, 每条 所述路径至少包 含两个所述初始数据对应的节点; 从多条所述路径中确定目标路径; 在所述目标数据库中提取所述目标路径中的各个节点所对应的数据, 得到所述目标数 据。 4.根据权利要求3所述的方法, 其特 征在于, 从多条 所述路径中确定目标路径包括: 在每条路径中, 分别根据所述节点对应的初始数据的准确程度确定所述节点的权重, 其中, 所述 准确程度用于表征从数据源提取 所述初始数据的准确度; 计算每条 所述路径上的所有所述节点的权 重的和, 得到多个路径权 重; 将多条所述路径中最小路径权 重对应的所述路径确定为所述目标路径。 5.根据权利要求4所述的方法, 其特征在于, 根据 所述节点对应的初始数据的准确程度 确定所述节点的权 重包括: 在所述初始数据为所述第 二数据的情况下, 获取通过数据抽取模型抽取所述第 二数据 的准确率, 并将所述 准确率的倒数确定为所述节点的权 重; 在所述初始数据为所述第一数据的情况 下, 将预设值确定为所述节点的权 重。 6.根据权利要求1所述的方法, 其特 征在于, 从多个文档中获取多个第二数据包括: 根据每个文档的类型从多个数据抽取模型中确定对应 类型的数据抽取模型; 分别根据对应类型的所述数据抽取模型从每个所述文档中抽取第 二数据, 得到多个所 述第二数据。 7.根据权利要求1所述的方法, 其特征在于, 在通过所述预设关联关系、 所述第一目标 字段和所述第二目标字段在所述目标 数据库中提取目标 数据之后, 所述方法还 包括: 确定预设条件, 从所述目标数据中剔除不符合所述预设条件的数据, 得到更新后的目权 利 要 求 书 1/2 页 2 CN 115033635 A 2标数据。 8.一种数据提取装置, 其特 征在于, 包括: 第一获取单元, 用于从结构化数据库中获取结构化数据, 得到多个第一数据, 其中, 所 述结构化数据库用于存 储结构化数据; 第二获取单元, 用于从文档中获取结构化数据, 得到多个第二数据, 其中, 所述文档为 非结构化文档; 确定单元, 用于将所述第一数据和所述第二数据作为初始数据, 根据关联字段建立所 有所述初始数据之间的预设 关联关系, 并根据所述初始数据建立目标 数据库; 提取单元, 用于确定第一目标字段和第二目标字段, 通过所述预设关联关系、 所述第一 目标字段和所述第二目标字段在所述目标 数据库中提取目标 数据。 9.一种处理器, 其特征在于, 所述处理器用于运行程序, 其中, 所述程序运行时执行权 利要求1至7中任意 一项所述的数据提取 方法。 10.一种电子设备, 其特征在于, 包括一个或多个处理器和存储器, 所述存储器用于存 储一个或多个程序, 其中, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所 述一个或多个处 理器实现权利要求1至7中任意 一项所述的数据提取 方法。权 利 要 求 书 2/2 页 3 CN 115033635 A 3

PDF文档 专利 数据提取方法、装置、处理器及电子设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据提取方法、装置、处理器及电子设备 第 1 页 专利 数据提取方法、装置、处理器及电子设备 第 2 页 专利 数据提取方法、装置、处理器及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。