金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210900302.9 (22)申请日 2022.07.28 (71)申请人 联想 (北京) 有限公司 地址 100085 北京市海淀区上地西路6号2 幢2层201- H2-6 (72)发明人 刘磊 王丽英  (74)专利代理 机构 北京派特恩知识产权代理有 限公司 1 1270 专利代理师 钟文聪 蒋雅洁 (51)Int.Cl. G06F 8/10(2018.01) G06F 40/30(2020.01) G06F 40/194(2020.01) (54)发明名称 一种数据处 理方法及电子设备 (57)摘要 本申请提供一种数据处理方法, 包括, 建立 第一文档中多个第一实体与第二文档中多个第 二实体的映射关系; 多个第一实体和多个第二实 体表征用代码实现的功能; 基于第一文档和/或 第二文档中的代码信息生成多个第一实体在第 一文档中对应的多个第一概念定义; 以及基于生 成多个第二实体在第二文档中对应的和多个第 二概念定义; 其中, 每个第一概念定义表征每个 第一实体在第一文档中用代码实现的关键内容, 每个第二概念定义表征每个第二实体在第二文 档中用代码实现的关键内容; 基于映射关系, 将 多个第一概念定义与多个第二概念定义分别进 行比对; 根据比对结果输出针对第一文档和所述 第二文档的文档处理信息。 同时, 本申请还提供 一种电子设备。 权利要求书3页 说明书12页 附图2页 CN 115202621 A 2022.10.18 CN 115202621 A 1.一种数据处 理方法, 所述方法包括: 建立第一文档中多个第 一实体与第 二文档中多个第 二实体的映射关系; 所述多个第 一 实体和所述多个第二实体表征用代码实现的功能; 至少基于所述第 一文档和/或所述第 二文档中的代码信 息生成多个第 一概念定义和多 个第二概念定义; 其中, 每个第一概念定义表征每个第一实体在所述第一文档中用代码实 现的关键内容, 每个第二概念定义表征每个第二 实体在所述第二文档中用代码实现的关键 内容; 基于所述映射关系, 将所述多个第一概念定义与所述多个第二概念定义分别进行比 对; 根据比对结果输出针对所述第一文档和所述第二文档的文档处 理信息。 2.根据权利要求1所述的方法, 其中, 所述建立第 一文档中多个第 一实体与第 二文档中 多个第二实体的映射关系, 包括: 获取所述多个第一实体在所述第一文档中的多个第一位置信息和所述多个第二实体 在所述第二文档中的多个第二 位置信息; 基于所述多个第一位置信息和所述多个第二位置信息建立所述多个第一实体和所述 多个第二实体的映射关系。 3.根据权利要求1所述的方法, 其中, 所述至少基于所述第一文档和/或所述第二文档 中的代码信息生成所述多个第一 概念定义和多个第二 概念定义, 包括: 获取所述多个第一实体和/或所述多个第二实体在对应文档中的多个代码信息; 将所述多个代码信息生成所述多个第一 概念定义和所述多个第二 概念定义; 所述生成多个第一 概念定义和多个第二 概念定义, 至少还 包括以下 方法之一: 对所述多个第 一实体和所述多个第 二实体在对应文档中的上下文内容进行语义分析, 得到多个关键信息; 基于所述多个关键信息生成所述多个第一概念定义和所述多个第二概 念定义; 获取所述多个第 一实体和所述多个第 二实体在对应文档中的多个属性信 息, 基于所述 多个属性信息生成所述多个第一 概念定义和所述多个第二 概念定义。 4.根据权利要求1所述的方法, 其中, 所述基于所述映射关系, 将所述多个第一概念定 义与所述多个第二 概念定义进行比对, 至少包括以下之一: 生成针对每个第 一概念定义的第 一语义内容, 以及生成针对每个第 二概念定义的第 二 语义内容; 基于所述映射关系, 将每个第 一概念定义的所述第 一语义内容与对应的第 二概念定义 的所述第二语义内容进行比对, 得到每个第一概念定义和对应的第二概念定义的语义相似 度; 基于所述映射关系, 将用所述第 一文档中的代码信 息生成的每个第 一概念定义与用所 述第二文档中的文字信息生成的每个第二概念定义进 行比对, 得到每个第一概念定义和对 应的第二 概念定义的内容相似度。 5.根据权利要求4所述的方法, 其中, 所述根据比对结果输出针对所述第 一文档和所述 第二文档的文档处 理信息, 包括: 将每个第一概念定义和对应的第二概念定义的语义相似度或内容相似度分别与阈值权 利 要 求 书 1/3 页 2 CN 115202621 A 2进行比对; 如果比对结果中存在有至少一个语义相似度或内容相似度小于所述阈值, 确定所述第 一文档中存在有至少一个第一实体的第一概念定义与所述第二文档中至少一个第二实体 的第二概念定义 不同; 生成针对所述第一文档中至少一个第一实体的第一概念定义和所述第二文档中至少 一个第二实体的第二 概念定义 不同的文档处 理信息; 输出所述文档处 理信息。 6.根据权利要求5所述的方法, 其中, 所述生成针对所述第 一文档中至少一个第 一实体 的第一概念定义和所述第二文档中至少一个第二实体的第二概念定义不同的文档处理信 息, 包括: 确定所述至少一个第 一实体在所述第 一文档中的至少一个第 一位置信 息; 以及确定所 述至少一个第二实体在所述第二文档中的至少一个第二 位置信息; 基于所述至少一个第 一位置信 息和所述至少一个第 二位置信 息, 生成针对所述第 一文 档中至少一个第一实体的第一概念定义和所述第二文档中至少一个第二实体的第二概念 定义不同的文档处 理信息。 7.根据权利要求6所述的方法, 其中, 所述生成针对所述第 一文档中至少一个第 一实体 的第一概念定义和所述第二文档中至少一个第二实体的第二概念定义不同的文档处理信 息, 还包括: 在所述第一文档中获取与所述第二概念定义不同的所述第一概念定义相关的第一关 联内容; 以及在所述第二文档中获取与所述第一概念定义不同的所述第二概念定义相关的 第二关联内容; 基于所述至少一个第一位置信息、 所述第一关联内容、 所述至少一个第二位置信息和 所述第二关联内容, 生成针对所述第一文档中至少一个第一 实体的第一概念定义和所述第 二文档中至少一个第二实体的第二 概念定义 不同的文档处 理信息。 8.根据权利要求5所述的方法, 其中, 所述方法还 包括: 在所述第一文档中对与所述第二概念定义不同的所述第一概念定义所对应的所述至 少一个第一 实体进行内容标注, 以及在所述第二文档中对与所述第一概念定义不同的所述 第二概念定义所对应的所述至少一个第二实体进行内容标注; 输出所述文档处 理信息, 包括: 输出所述文档处 理信息和经 所述内容标注的所述第一文档和所述第二文档。 9.根据权利要求1所述的方法, 其中, 在所述建立第 一文档中多个第 一实体与第 二文档 中多个第二实体的映射关系之前, 所述方法还 包括: 如果检测到所述第 一文档或所述第 二文档满足文档处理条件, 在所述第 一文档中提取 所述多个第一实体, 以及 在所述第二文档中提取 所述多个第二实体。 10.一种电子设备, 所述电子设备包括: 建立单元, 用于建立第一文档中多个第一实体与第二文档中多个第二实体的映射关 系; 所述多个第一实体和所述多个第二实体表征用代码实现的功能; 生成单元, 用于至少基于所述第一文档和/或所述第二文档 中的代码信息生成多个第 一概念定义和多个第二概念定义; 其中, 每个第一概念定义表征每个第一实体在所述第一权 利 要 求 书 2/3 页 3 CN 115202621 A 3

PDF文档 专利 一种数据处理方法及电子设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据处理方法及电子设备 第 1 页 专利 一种数据处理方法及电子设备 第 2 页 专利 一种数据处理方法及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。