金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111329188.0 (22)申请日 2021.11.10 (71)申请人 支付宝 (杭州) 信息技 术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 申请人 蚂蚁区块链科技 (上海) 有限公司 (72)发明人 鲍梦瑶 刘佳伟 章鹏 张谦  贾茜  (74)专利代理 机构 北京亿腾知识产权代理事务 所(普通合伙) 11309 代理人 孙欣欣 周良玉 (51)Int.Cl. G06F 40/295(2020.01) G06N 20/00(2019.01) (54)发明名称 训练命名实体识别模型的方法和装置 (57)摘要 本说明书实施例提供一种训练命名实体识 别模型的方法和装置, 方法包括: 获取第一文本 集合和第二文本集合, 第一文本集合中的文本具 有标注信息, 标注信息包括隐私类别及其位置, 第二文本集合中的文本不具有标注信息; 利用第 一文本集合中包括的文本及其标注信息对命名 实体识别模 型进行初步训练; 利用初步训练后的 命名实体识别模型评估第二文本集合中的各文 本, 根据评估结果和预先设置的挑选策略, 从第 二文本集合中挑选补充文本; 获取补充文本的标 注信息; 将补充文本及其标注信息添加到第一文 本集合, 以扩充第一文本集合; 利用扩充后的第 一文本集合对命名实体识别模型进行继续训练, 得到继续训练后的命名实体识别模 型。 能够降低 人工标注成本 。 权利要求书3页 说明书15页 附图5页 CN 114091457 A 2022.02.25 CN 114091457 A 1.一种训练命名实体识别模型的方法, 所述命名实体识别模型用于确定目标文本中包 括的隐私信息的隐私类别及其 位置, 所述方法包括: 获取第一文本集合和第二文本集合, 所述第一文本集合中的文本具有标注信息, 所述 标注信息包括隐私类别及其 位置, 所述第二文本集 合中的文本不具有标注信息; 利用所述第一文本集合中包括的文本及其标注信息对所述命名实体识别模型进行初 步训练, 得到初步训练后的命名实体识别模型; 利用所述初步训练后的命名实体识别模型评估所述第 二文本集合中的各文本, 根据评 估结果和预 先设置的挑选策略, 从所述第二文本集 合中挑选补充 文本; 获取所述补充 文本的标注信息; 将所述补充 文本及其标注信息添加到所述第一文本集 合, 以扩充所述第一文本集 合; 利用扩充后的所述第 一文本集合对所述命名实体识别模型进行继续训练, 得到继续训 练后的命名实体识别模型。 2.如权利要求1所述的方法, 其中, 所述获取 所述补充 文本的标注信息, 包括: 利用所述初始训练后的命名实体识别模型确定所述补充文本中包括的隐私信息的预 测类别及其预测位置; 对所述补充文本 中包括的隐私信 息的预测类别及其预测位置进行人工校验后, 得到所 述标注信息 。 3.如权利要求1所述的方法, 其中, 所述目标文本为应用程序的隐私声明文本, 所述命 名实体识别模型用于确定隐私声明文本中声明采集的隐私信息的隐私类别及其 位置。 4.如权利要求1所述的方法, 其中, 所述标注信息采用BIOE标记法, 所述BIOE标记法用 于标记文本中属于隐私信息的若干连续字符的隐私类别, 其起始位置、 中间位置和结束位 置, 以及标记文本中不属于隐私信息的字符。 5.如权利要求1所述的方法, 其中, 所述评估结果包括, 对各文本进行预测的置信度; 所 述挑选策略包括, 选择置信度最低的文本作为所述补充 文本。 6.如权利要求1所述的方法, 其中, 所述评估结果包括, 对文本中的各字符进行预测的 置信度; 所述挑选策略包括, 选择置信度最低的字符所在的文本作为所述补充 文本。 7.如权利要求1所述的方法, 其中, 所述评估结果包括, 对文本中的字符预测为任一标 记类别的置信度; 所述挑选策略包括, 选择包含的各字符的平均信息熵最大 的文本作为所 述补充文本。 8.如权利要求1所述的方法, 其中, 所述继续训练具有终止条件, 所述终止条件为继续 训练后的命名实体识别模型 的效果评估符合要求, 所述效果评估通过准确 率、 召回率中的 至少一个指标来衡量。 9.一种应用程序的合规性判别方法, 所述方法基于权利要求1所述的方法得到的继续 训练后的命名实体识别模型实现, 包括: 获取应用程序的代码分析结果, 所述代码分析结果指示出所述应用程序实际采集的隐 私信息的隐私类别构成的第一类别集 合; 利用所述继续训练后的命名实体识别模型, 确定所述应用程序的隐私声明文本声明采 集的隐私信息的隐私类别构成的第二类别集 合; 当所述第一类别集合与所述第 二类别集合一致, 且包括的隐私类别均属于法律法规中权 利 要 求 书 1/3 页 2 CN 114091457 A 2允许所述应用程序采集的隐私信息的隐私类别时, 确定所述应用程序合 规。 10.如权利要求9所述的方法, 其中, 所述利用所述继续训练后的命名实体识别模型, 确 定所述应用程序的 隐私声明文本声明采集的 隐私信息的 隐私类别构成的第二类别集合, 包 括: 将所述应用程序的隐私声明文本以句子为单位进行拆分, 得到多个分句; 将所述多个分句分别 输入所述继续训练后的命名实体识别模型, 得到各分句中分别包 括的隐私信息的隐私类别; 合并各分句中分别包括的隐私类别, 得到所述应用程序的隐私声明文本声明采集的隐 私信息的隐私类别构成的第二类别集 合。 11.一种训练命名实体识别模型的装置, 所述命名实体识别模型用于确定目标文本中 包括的隐私信息的隐私类别及其 位置, 所述装置包括: 第一获取单元, 用于获取第一文本集合和第二文本集合, 所述第一文本集合中的文本 具有标注信息, 所述标注信息包括隐私类别及其位置, 所述第二文本集合中的文本不具有 标注信息; 第一训练单元, 用于利用所述第 一获取单元获取的第 一文本集合中包括的文本及其标 注信息对所述命名实体识别模型进行初步训练, 得到初步训练后的命名实体识别模型; 选择单元, 用于利用所述第 一训练单元得到的初步训练后的命名实体识别模型评估所 述第一获取单元获取 的第二文本集合中的各文本, 根据评估结果和预先设置的挑选策略, 从所述第二文本集 合中挑选补充 文本; 第二获取 单元, 用于获取 所述选择 单元挑选的补充 文本的标注信息; 扩充单元, 用于将所述选择单元挑选的补充文本及所述第 二获取单元获取的其标注信 息添加到所述第一文本集 合, 以扩充所述第一文本集 合; 第二训练单元, 用于利用所述扩充单元扩充后的所述第 一文本集合对所述第 一训练单 元得到的命名实体识别模型进行继续训练, 得到继续训练后的命名实体识别模型。 12.如权利要求1 1所述的装置, 其中, 所述第二获取 单元包括: 预测子单元, 用于利用所述初始训练后的命名实体识别模型确定所述补充文本 中包括 的隐私信息的预测类别及其预测位置; 校验子单元, 用于对所述预测子单元得到的所述补充文本 中包括的隐私信 息的预测类 别及其预测位置进行 人工校验后, 得到所述标注信息 。 13.如权利要求11所述的装置, 其中, 所述目标文本为应用程序的隐私声明文本, 所述 命名实体识别模型用于确定隐私声明文本中声明采集的隐私信息的隐私类别及其 位置。 14.如权利要求11所述的装置, 其中, 所述标注信息采用BIOE标记法, 所述BIOE标记法 用于标记文本中属于隐私信息的若干连续字符的隐私类别, 其起始位置、 中间位置和结束 位置, 以及标记文本中不属于隐私信息的字符。 15.如权利要求11所述的装置, 其中, 所述评估结果包括, 对各文本进行预测的置信度; 所述挑选策略包括, 选择置信度最低的文本作为所述补充 文本。 16.如权利要求11所述的装置, 其中, 所述评估结果包括, 对文本中的各字符进行预测 的置信度; 所述挑选策略包括, 选择置信度最低的字符所在的文本作为所述补充 文本。 17.如权利要求11所述的装置, 其中, 所述评估结果包括, 对文本中的字符预测为任一权 利 要 求 书 2/3 页 3 CN 114091457 A 3

.PDF文档 专利 训练命名实体识别模型的方法和装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 训练命名实体识别模型的方法和装置 第 1 页 专利 训练命名实体识别模型的方法和装置 第 2 页 专利 训练命名实体识别模型的方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:03:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。