金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211397674.0 (22)申请日 2022.11.09 (71)申请人 国网甘肃省电力公司经济技 术研究 院 地址 730030 甘肃省兰州市七里河区西津 东路628号 申请人 国网甘肃省电力公司   国网信通亿力科技有限责任公司 (72)发明人 廖翯 杨晶 冯宇欣 李昊  妥建军 马雅蓉 雷雪俊 崔丽红  陆鑫 黄屏发 高德鑫 张晶  陈洪锦 陈奎印  (74)专利代理 机构 温州联赢知识产权代理事务 所(普通合伙) 33361 专利代理师 吴娇(51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 40/30(2020.01) G06Q 50/06(2012.01) (54)发明名称 一种基于文本解析的电网规划智能问答系 统 (57)摘要 本发明涉及一种基于文本解析的电网规划 智能问答系统, 包括有应用层、 支 撑层、 知识层和 数据层, 所述的知识层配置有文本解析模块, 设 置了专用于解析文本信息的文本解析模块, 通过 信息结构解析以及语义解析两个算法支持, 解决 了政策文本的知识信息难以提取的关键问题。 一 是通过建立行业术语库标记每个电网行业用语 的磁性特征, 提高了系统对电网规划专业知 识解 析的准确性, 二是通过结构信息对知识信息要素 进行关联, 从而使整个文本信息形成 网状拓扑结 构, 而根据这类网状拓扑结构就可以分析文本信 息之间的关联性, 生成新的关联关系, 从而使知 识图谱具备准确性, 避免文本信息部分条款失 效、 时间覆盖、 优先级不同导致回答信息出现错 误。 权利要求书2页 说明书7页 附图2页 CN 115544235 A 2022.12.30 CN 115544235 A 1.一种基于文本解析的电网规划智能问答系统, 包括有应用层、 支撑层、 知识层和数据 层, 其特征在于: 所述的知识层配置有文本解析模块, 所述文本解析模块用于解析数据层输入的文本信 息并生成文本要素图谱; 所述文本解析模块包括结构解析单元、 语义匹配单元以及信息关联单元; 所述结构解 析单元关联有结构特征库以及结构类型库, 所述结构特征库存储有若干结构特征, 所述结 构类型库存储有 结构类型信息, 所述结构解析单元遍历对应的文本信息以通过结构特征库 识别相同的结构特征, 并根据对应结构特征在文本信息中的顺序以及位置 关系从所述结构 类型库中匹配最接 近的结构类型信息; 所述语义匹配单元关联有行业术语库, 所述行业术语库存储有电网行业用语以及对应 每一电网行业用语配置有词性特征, 所述语义匹配单元通过词性特征标记文本信息中与电 网行业用语对应的词汇, 并配置有语义识别算法从标记后的文本信息进 行语义识别以生成 若干知识信息要素; 所述信息关联单元包括第 一关联策略以及第 二关联策略, 所述第 一关联策略根据 结构 类型信息于知识信息要素之 间建立第一关联标记, 所述第二关联策略根据第一关联标记从 知识信息要素中筛选具有关联特征的知识信息要 素, 比对不同文本信息具有关联特征的知 识信息要 素以确定文本信息之 间的文本 关联关系, 根据文本关联关系以在不同从属文本信 息的知识信息要素之间建立第二关联标记, 根据第一关联标记、 第二关联标记以及知识信 息要素组成所述文本要素图谱。 2.如权利要求1所述的一种基于文本解析的电网规划智能问答系统, 其特征在于: 所述 知识层还配置有数据配置模块, 所述数据配置模块包括特征配置单元, 所述特征配置单元 将所述结构 类型库中的每一结构 类型信息拆分为若干结构特征, 所述结构特征库的每一结 构特征配置特征优先值, 有D=a/(A1α1/β1+K+Anαn/βn), 其中D为特征优先值, a为预设的优先 值配置参数, An为第n个具有该结构 特征的结构类型信息的匹配关联值, 所述匹配关联值反 映该结构类型信息 的匹配可靠程度, αn为第n个具有该结构特征的结构类型信息中所有结 构特征的数量, βn为第n个具有该 结构特征的结构类型信息中该 结构特征的数量; 所述结构解析 单元根据优先值大小确定结构特 征在结构类型信息库中的匹配顺序。 3.如权利要求2所述的一种基于文本解析的电网规划智能问答系统, 其特征在于: 所述 数据配置模块还包括类型关联单元, 所述类型关联单元根据输入的文本样本配置每一结构 类型信息的匹配关联值, 有A=1/[(t0‑t1)‑cM]2χ1+K+1/[(t0‑tm)‑cM]2χm, 其中, A为匹配关联 值, t0为当前时间, tm为第m个文本样本的创建时间, c为预设的敏感调节变量, M为文本样本 的总量, χm为第m个文本样本对应与结构类型信息的已知匹配度; 所述结构解析单元根据匹配关联值计算每一结构类型信息的匹配度, 有Δχ=A(h1+K+ hg), 其中Δ χ为匹配度, hg为第g个结构特征的相似度, 所述结构解析单元确定匹配度最高的 结构类型信息为 最接近的结构类型信息 。 4.如权利要求1所述的一种基于文本解析的电网规划智能问答系统, 其特征在于: 所述 知识层还包括数据提取模块, 所述数据提取模块包括词 库提取单元、 词性标记单元, 所述词 库提取单元关联所述数据层的若干行业术语数据库, 并从所述行业术语数据库中提取电网 行业用语, 所述词性标记单元用于对提取 的电网行业用语标记词性特征, 所述词性特征包权 利 要 求 书 1/2 页 2 CN 115544235 A 2括行业用语数据库的类型。 5.如权利要求4所述的一种基于文本解析的电网规划智能问答系统, 其特征在于: 所述 数据提取模块还包括特征配置单元, 所述特征配置单元用于配置每一词性特征的识别优先 值; 所述语义识别算法以识别优先值为顺序确定作为索引的词性特征, 并根据确定的词性 特征对文本信息进行语义识别, 当识别结果满足第一识别条件时, 输出对应的知识信息要 素。 6.如权利要求5所述的一种基于文本解析的电网规划智能问答系统, 其特征在于: 所述 语义识别算法包括配置有若干结构化语段, 每一结构化语段包括固定项和参数项, 每一结 构化语段都以词性特 征为索引, 所述语义识别算法包括 步骤A1、 以识别优先值大小的顺序选择词性特 征以确定对应的结构化语段; 步骤A2、 确定目标语段中的固定项并计算 其关联程度以生成第一识别值; 步骤A3、 根据确定的固定项在目标语段中的位置确定目标语段中的参数项, 并验证其 数据格式以生成第二识别值; 步骤A4、 确定目标语段中的剩余信息以生成第三识别值; 步骤A5、 求和第一识别值、 第二识别值、 第三识别值以获得语义识别值; 步骤A6、 判断语义识别值是否满足所述第一识别条件, 若满足第一识别条件, 则以该结 构化语段从目标语段中提取参数项以生成所述知识信息要素; 若不满足第一识别条件, 重 新进入步骤A1。 7.如权利要求5所述的一种基于文本解析的电网规划智能问答系统, 其特征在于: 所述 的第一识别条件配置有第一识别阈值和第二识别阈值, 若语义识别值超过第一识别阈值, 或该结构化语段的语义识别值大于语义识别均值第二识别阈值时, 视为满足第一识别条 件, 所述的语义识别均值 为所有在先识别的结构化语段 所获得的语义识别阈值的平均值。 8.如权利要求4所述的一种基于文本解析的电网规划智能问答系统, 其特征在于: 所述 的词性优先值为词语优先值和词库优先值加权和, 所述特征配置单元包括词语优先算法和 词库优先算法, 所述词语优先算法为当一电网行业用语在文本信息中被识别时, 增加预设 的第一优先增量至该电网行业用语的词语优先值, 同时根据电网行业用语之间的相似度权 重增加预设的第二优先增量至其他电网行业用语的词语优先值; 所述词库优先算法为当一 电网行业用语在文本信息中被识别时, 增加预设的第三优先增量至与该电网行业用语属于 相同的行业 术语数据库的所有电网行业用语的词库优先值。 9.如权利要求1所述的一种基于文本解析的电网规划智能问答系统, 其特征在于: 所述 第一关联策略包括根据结构 类型信息确定知识信息要 素之间的从属关系, 并识别知识信息 要素的要素缺失项, 根据识别得到的要素缺失项以及从属关系生成第一关联 标记。 10.如权利要求1所述的一种基于文本解析的 电网规划智能问答系统, 其特征在于: 所 述第二关联策略包括根据第一关联标记确定作为基本信息的知识信息要 素, 并将不同文本 信息的知识信息要素进行匹配以将匹配结果符合第二比对条件的知识信息要素中确定要 素竞合项, 根据第一关联标记调取对应的作为基本信息的知识信息要素以识别要素竞合 项, 根据要 素竞合项生成对应的竞合条件, 所述要 素竞合项包括时间竞合项、 政 策等级竞合 项、 条例优先竞 合项。权 利 要 求 书 2/2 页 3 CN 115544235 A 3

PDF文档 专利 一种基于文本解析的电网规划智能问答系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于文本解析的电网规划智能问答系统 第 1 页 专利 一种基于文本解析的电网规划智能问答系统 第 2 页 专利 一种基于文本解析的电网规划智能问答系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。