金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210900936.4 (22)申请日 2022.07.28 (71)申请人 乐知未来科技 (深圳) 有限公司 地址 518129 广东省深圳市龙岗区坂田街 道社区黄军山综合楼801-826 (72)发明人 刘怀亮 杨碧莲 赵舰波 张善庄  杨斌 王亚凯  (74)专利代理 机构 西安嘉思特知识产权代理事 务所(普通 合伙) 6123 0 专利代理师 万艳艳 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/289(2020.01) G06F 40/268(2020.01) G06F 40/216(2020.01)G06F 40/30(2020.01) G06F 40/242(2020.01) (54)发明名称 一种用于计算篇章级文档相似度的方法及 可读存储介质 (57)摘要 本发明涉及一种用于计算篇章级文档相似 度的方法及可读存储介质, 方法包括: 获取原始 文档的m条第一句子和比对文档的n条第二句子; 对第一句子和第二句子进行中文分词和去除停 用词处理, 得到通用字典; 根据去除停用词后剩 余的词语的词频和词性, 得到共同标注; 基于词 语的共同标注得到该词语的词频与逆文档频值, 以得到第一句子和第二句子的词频与逆文档频 向量; 从比对文档中找到与原始文档的每一条第 一句子最相似的第二句子, 以得到第一相似度分 数; 得到最终的Doc2Vec输 出的最终文档向量; 根 据最终文档向量得到第二相似度分数; 根据第一 和第二相似度分数的平均值确定相似度结果。 该 方法考虑了词频、 词性和语义, 对于长文本能有 效处理。 权利要求书2页 说明书10页 附图3页 CN 115099368 A 2022.09.23 CN 115099368 A 1.一种用于计算篇章级文档相似度的方法, 其特征在于, 所述用于计算篇章级文档相 似度的方法包括: 步骤1、 获取原 始文档的m条第一句子和比对文档的n条第二句子; 步骤2、 对所有所述第一句子和所述第二句子进行中文分词和去除停用词处理, 以得到 由去除停用词之后的所有词语组成的通用字典, 所述通用字典中的每个词语均配置有一映 射标识; 步骤3、 根据所述第一句子和所述第 二句子中去除停用词后剩余的词语的词频和词性, 得到所述词语的词频和词性的共同标注; 步骤4、 基于所述词语的共同标注得到该词语的词频与逆文档频值, 以基于所述词语的 词频与逆文档频值得到所述第一句子和所述第二句子的词频与逆文档频向量; 步骤5、 基于所述词频与逆文档频向量, 从所述比对文档中找到与所述原始文档的每一 条第一句子最相似的第二句子, 以得到所述原 始文档和所述比对文档的第一相似度分数; 步骤6、 将进行中文分词和去除停用词后的原始文档和比对文档分别输入至Doc2Vec, 迭代更新所述Doc2 Vec, 以得到最终的Doc2 Vec输出的最终文档向量; 步骤7、 根据所述原始文档的最终文档向量和所述比对文档的最终文档向量得到第二 相似度分数; 步骤8、 根据所述第一相似度分数和所述第二相似度分数的平均值与分数阈值的关系 确定相似度结果。 2.根据权利要求1所述的用于计算篇章级文档相似度的方法, 其特征在于, 所述步骤1 包括: 步骤1.1、 获取 所述原始文档和所述比对文档; 步骤1.2、 对所述原始文档和所述比对文档进行正则化分句, 得到所述原始文档的m条 第一句子和所述比对文档的n条第二句子 。 3.根据权利要求1所述的用于计算篇章级文档相似度的方法, 其特征在于, 所述步骤2 包括: 步骤2.1、 对所有所述第一句子和所述第二句子进行中文分词, 得到多个词语; 步骤2.2、 去除步骤2.1中所 得到的所有词语中的停用词, 得到去除停用词之后的词语; 步骤2.3、 根据步骤2.2所得到的去除停用词之后的所有词语构建所述通用字典, 并为 所述通用字典中的每 个词语配置一映射标识。 4.根据权利要求1所述的用于计算篇章级文档相似度的方法, 其特征在于, 所述步骤3 包括: 步骤3.1、 统计所述第一句子和所述第二句子中去除停用词后剩余的每个词语出现的 次数, 将所述次数记为词频, 并将所述第一句子和所述第二句子转换为词袋格式, 以根据每 个所述词语的词频 得到第一标注; 步骤3.2、 为所述第一句子和所述第二句子中去除停用词后剩余的每个词语标注词性, 并依据所述词性的优先级顺序为每 个词语分配对应的第二标注; 步骤3.3、 根据所述词语的第一标注和所述第二标注得到该词语的共同标注。 5.根据权利要求1所述的用于计算篇章级文档相似度的方法, 其特征在于, 所述词频与 逆文档频值的计算公式为:权 利 要 求 书 1/2 页 2 CN 115099368 A 2其中, tfidf(w)为词语w的词频与逆文档频值, tf(d,w)为词语w在所处句子的共同标 注, N为词语w所处文档的所有句子的总数, N(w)为词语w在所处文档出现的句子总数。 6.根据权利要求1所述的用于计算篇章级文档相似度的方法, 其特征在于, 所述步骤5 包括: 步骤5.1、 计算所述原始文档中每个第一句子的词频与逆文档频向量和所述比对文档 中所有的第二句子的词频与逆文档频向量的余弦相似度, 将最大的余弦相似度对应的第二 句子作为与所述第一句子最相似的句子; 步骤5.2、 统计所述第一句子对应的最大的余弦相似度中大于预设分数的余弦相似度, 将大于预设分数的余弦相似度对应的句子数与所述原始文档中总句子数的比率作为所述 第一相似度分数。 7.根据权利要求1所述的用于计算篇章级文档相似度的方法, 其特征在于, 所述步骤6 包括: 步骤6.1、 将所述进行中文分词和去除停用词后的原始文档和比对文档分别输入至 Doc2Vec; 步骤6.2、 按照预设数量, 所述Doc2Vec分别从所述原始文档的第一句子和所述比对文 档的第二句子中采样若干词语; 步骤6.3、 从采样得到的词语中选取一词语作为预测词, 将其 余词语作为输入词; 步骤6.4、 根据 所述预测词的第一词向量和第二词向量计算损失函数的损失值, 所述第 二词向量 为根据当前的文档向量和所述输入词对应的词向量得到的; 步骤6.5、 利用随机梯度下降优化损失函数; 步骤6.6、 按照预设数量滑动窗口, 以从所述原始文档的第一句子和所述比对文档的第 二句子中分别采样新的词语, 并按照步骤6.3至步骤6.5循环执行, 直至得到所述Doc2Vec输 出的最终文档向量。 8.根据权利要求1所述的用于计算篇章级文档相似度的方法, 其特征在于, 所述步骤7 包括: 计算所述原始文档的最终文档向量和所述比对文档的最终文档向量的余弦相似度, 将 所得到余弦相似度作为所述第二相似度分数。 9.根据权利要求1所述的用于计算篇章级文档相似度的方法, 其特征在于, 所述步骤8 包括: 步骤8.1、 根据所述第一相似度分数和所述第二相似度分数的平均值得到所述原始文 档和所述比对文档的最终相似度分数; 步骤8.2、 判断所述最终相似度分数与所述分数阈值的关系, 若所述最终相似度分数大 于或者等于所述分数阈值, 则所述相似度结果 为相似, 否则为 不相似。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质内存储有计算机 程序, 所述计算机程序被处 理器执行时实现权利要求1 ‑9任一所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115099368 A 3

PDF文档 专利 一种用于计算篇章级文档相似度的方法及可读存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于计算篇章级文档相似度的方法及可读存储介质 第 1 页 专利 一种用于计算篇章级文档相似度的方法及可读存储介质 第 2 页 专利 一种用于计算篇章级文档相似度的方法及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。